El Sesgo Lingüístico Digital (SLD) en la inteligencia artificial: implicaciones para los modelos de lenguaje masivos en español

Autores/as

  • Javier Muñoz-Basols Universidad de Sevilla, España - University of Oxford, Reino Unido https://orcid.org/0000-0003-3856-3637
  • María del Mar Palomares Marín University of Limerick, Irlanda https://orcid.org/0000-0002-8474-3375
  • Francisco Moreno Fernández Observatorio Global del Español, Instituto Cervantes, España - Universität Heidelberg, Alemania

DOI:

https://doi.org/10.15381/lengsoc.v23i2.28665

Palabras clave:

inteligencia artificial generativa (IAGen), Modelos de Lenguaje Masivos (MLM), Sesgo Lingüístico Digital (SLD), diversidad de la lengua, español

Resumen

La llegada de la inteligencia artificial generativa a nivel de usuario, especialmente a partir de los Modelos de Lenguaje Masivos (MLM), nos obliga a reflexionar sobre la proliferación de sesgos en la construcción, desarrollo, uso y representatividad de estos modelos basados en datos lingüísticos. En este artículo, se revisan las iniciativas desarrolladas para el español en el campo de la inteligencia artificial (IA), tanto desde la América hispanohablante como desde España, de modo que se presta especial atención a los recursos lingüísticos y a los MLM. Se examina la composición de los principales MLM actuales del español y se comparan con otros MLM de lenguas peninsulares (catalán, euskera, gallego y valenciano). Asimismo, se introduce el término Sesgo Lingüístico Digital (SLD) para identificar la hibridez lingüística que la IA genera tanto a nivel interlingüístico (p. ej., en relación con la base del inglés utilizada para entrenar estos modelos) como intralingüístico (en relación con las distintas variedades de la lengua). Finalmente, se sugiere que un usuario con conciencia digital podrá contribuir a mitigar los efectos del SLD. En conclusión, se enfatiza la necesidad de una acción coordinada por parte de los agentes institucionales para preservar la diversidad del patrimonio lingüístico hispanohablante en el desarrollo de los MLM.

Biografía del autor/a

  • Javier Muñoz-Basols, Universidad de Sevilla, España - University of Oxford, Reino Unido

    Es Investigador Distinguido Sénior Beatriz Galindo en la Universidad de Sevilla (España) y Honorary Faculty Research Fellow en la Universidad de Oxford (Reino Unido). Es investigador principal del “Portal de lingüística hispánica” y coinvestigador principal del proyecto de Humanidades Digitales COMUN-ES (www.comun-es.com). Es cofundador y editor jefe del Journal of Spanish Language Teaching, corresponsal del Observatorio Permanente del Hispanismo la Fundación Duques de Soria, miembro del Patronato del Instituto Cervantes, académico correspondiente de la Academia Norteamericana de la Lengua Española (ANLE) y presidente de la Asociación para la Enseñanza del Español como Lengua Extranjera (ASELE).

  • María del Mar Palomares Marín, University of Limerick, Irlanda

    Es doctora en Lingüística Aplicada por la Universidad de Murcia (España). Ha trabajado como Assistant Lecturer in Information Technology en la Technological University Dublin, donde también ha trabajado en el área de español de negocios y español para extranjeros. Cuenta con amplia experiencia en la educación ELE de adultos (programa Lifelong Learning de University College Dublin), y como tutora y teaching fellow de español y literatura para estudiantes universitarios (University College Dublin). Actualmente, es Assistant Professor in Spanish en la Universidad de Limerick, donde participa en varios proyectos de Inteligencia Artificial. Sus líneas de investigación se centran en la tecnología educativa y la Inteligencia Artificial aplicada a la enseñanza de lenguas.

  • Francisco Moreno Fernández, Observatorio Global del Español, Instituto Cervantes, España - Universität Heidelberg, Alemania

    Es director del Observatorio Global del Español del Instituto Cervantes, catedrático Alexander von Humboldt en la Universidad de Heidelberg y profesor honorario de la Universidad de Alcalá. Su investigación se ha ocupado de temas relativos a la dialectología y la sociolingüística del español, así como de las lenguas internacionales y la globalización lingüística. Editor jefe de la revista Spanish in Context y coeditor de Journal of Linguistic Geography. Académico de número de la Academia Europaea y de la Academia Norteamericana de la Lengua Española (ANLE), así como correspondiente de las Academias Cubana, Chilena y Mexicana de la Lengua, y de la Real Academia Española.

Referencias

Agesic. (2019). Estrategia de Inteligencia Artificial para el Gobierno Digital. Gobierno de Uruguay.

Alonso, R. (2024, 15 de mayo). El gobierno acelera el desarrollo de ChatGPT español y el uso de la Inteligencia Artificial en pymes. ABC. https://www.abc.es/tecnologia/gobierno-destinara-1500-millones-euros-desarrollo-ia-20240514132352-nt.html?ref=https%3A%2F%2Fwww.google.com%2F

Amaratunga, T. (2023). Understanding Large Language Models. Apress.

Arancibia, D., Ávila, C., Caro, M. J., Girardi, J., González, N., Guridi, J. A. y Rivera, A. (2021). Política Nacional de Inteligencia Artificial. Chile IA. Ministerio de Ciencia, Tecnología, Conocimiento e Innovación.

Artetxe, M., Aldabe, I., Agerri, R., Perez-de-Viñaspre, O. y Soroa, A. (2022). Does corpus quality really matter for low-resource languages? arXiv. https://doi.org/10.48550/arXiv.2203.08111

Asociación Española de Terminología. (2024). TERESIA. https://aeter.org/teresia/

Biblioteca Nacional de España. (2024). El Archivo de la Web España. https://www.bne.es/es/colecciones/archivo-web-espanola

Barcelona Supercomputing Center. (2024a, 17 de enero). BSC to develop multilingual models in Aranese through Aina [nota de prensa]. https://www.bsc.es/news/bsc-news/bsc-develop-multilingual-models-aranese-through-aina

Barcelona Supercomputing Center. (2024b, 28 de febrero). El BSC pone en marcha Aina Challenge, la primera convocatoria oficial de proyectos de inteligencia artificial en catalán [nota de prensa]. https://www.bsc.es/es/noticias/noticias-del-bsc/el-bsc-pone-en-marcha-aina-challenge-la-primera-convocatoria-oficial-de-proyectos-de-inteligencia

Campusa. (2024, 31 de enero). HiTZ Zentroa desarrolla el mayor modelo del lenguaje para el euskera: Latxa. Campusa, Noticias de la Universidad del País Vasco. https://www.ehu.eus/es/-/hitz-zentroa-desarrolla-mayor-modelo-lenguaje-euskera-latxa

Cañete, J., Chaperon, G., Fuentes, R., Ho, J., Kang, H. y Pérez, J. (2023). Spanish Pre-trained BERT Model and Evaluation Data. arXiv. https://doi.org/10.48550/arXiv.2308.02976

Cañete, J., Donoso, S., Bravo-Marquez, F., Carvallo, A. y Araujo, V. (2022). ALBETO and DistilBETO: Lightweight Spanish Language Model. arXiv.

Comunidad ELOTL (2020). Corpus paralelo Otomí-español. https://elotl.mx/proyectos/corpus-paralelo-otomi-espanol/

Company Company, C. (2019). Jerarquías dialectales y conflictos entre teoría y práctica. Perspectivas desde la Asociación de Academias de la Lengua Española (ASALE). Journal of Spanish Language Teaching, 6(2), 96-105. https://doi.org/10.1080/23247797.2019.1668179

Dafoe, A. (2018). AI Governance: a Research Agenda. https://www.fhi.ox.ac.uk/wp-content/uploads/GovAI-Agenda.pdf

De-Dios-Flores, I., Paniagua Suárez, S., Carbajal Pérez, C., Bardanca Outeiriño, D., Garcia, M. y Gamallo, P. (2024). CorpusNÓS: A massive Galician corpus for training large language models. arXiv. https://iv.org/html/2406.13893v1/arx

De la Rosa, J., Ponferrada, E. G., Villegas, P., González, P., Romero, M. y Grandury, M. (2022). BERTIN: Efficient Pre-Training of a Spanish Language Model using Perplexity Sampling. Procesamiento del Lenguaje Natural, 68, 13-23. http://journal.sepln.org/sepln/ojs/ojs/index.php/pln/article/view/6403

Del Rey Quesada, S. (2021). Lo marcado y lo no marcado en la cadena de variedades: apuntes para una nueva propuesta. En T. Gruber, K. Grübl y T. Scharinger (Eds), Was bleibt von kommunikativer Nähe und Distanz? Mediale und konzeptionelle Aspekte sprachlicher Variation (pp. 205-238). Narr.

El Debate. (2024, 30 de mayo). Santiago Muñoz Machado: “El peligro está en que se formen dialectos digitales que laminen nuestro idioma”. El Debate. https://www.eldebate.com/sociedad/20240530/santiago-munoz-machado-peligro-esta-formen-dialectos-digitales-laminen-nuestro-idioma_201254.html

Etxaniz, J., Sainz, O., Perez, N., Aldabe, I., Rigau, G., Aguirre, E., Ormazabal, A., Artetxe, M. y Soroa, A., (2024). Latxa: An Open Language Model and Evaluation Suite for Basque. arXiv. https://doi.org/10.48550/arXiv.2403.20266

Fundación Comillas. (2023). Corpus del español de los negocios (CORPEN-FUNDACIÓN COMILLAS). https://fundacioncomillas.es/wp-content/uploads/2023/03/proyecto-corpen-fundacion-comillas.pdf

Gallardo, C. (2024, 28 de febrero). Spain to develop open-source LLM trained in Spanish, regional languages. Sifted. https://sifted.eu/articles/spain-large-language-model-generative-ai

Gamallo, P., Rodríguez, P., de-Dios-Flores, I., Sotelo, S., Paniagua, S., Bardanca, D., Pichel, J. R. y Garcia, M. (2024). Open Generative Large Language Models for Galician. ArXiv. https://arxiv.org/pdf/2406.13893v1

García Montero, L. (2022). Reflexiones precavidas sobre la inteligencia artificial. En C. Pastor Villalba (Dir.), El español en el mundo 2022. Anuario del Instituto Cervantes (pp. 135-144). Instituto Cervantes.

Gobierno de España. (2022, 26 de junio). El gobierno concede una subvención de 5 millones de euros a la RAE para ejecutar el proyecto ‘Lengua española e Inteligencia Artificial’ (LEIA). https://planderecuperacion.gob.es/noticias/el-gobierno-concede-una-subvencion-de-5-millones-de-euros-a-la-rae-para-ejecutar-el-proyecto-leia

Gobierno de España (2023, 15 de diciembre). Conoce “TeresIA” para la traducción de terminología en español mediante Inteligencia Artificial. https://planderecuperacion.gob.es/noticias/conoce-proyecto-teresia-traduccion-terminologia-espanol-inteligencia-artificial-IA-prtr

Gobierno de España (2024). Estrategia de Inteligencia Artificial 2024. https://portal.mineco.gob.es/es-es/digitalizacionIA/Documents/Estrategia_IA_2024.pdf

Gobierno Vasco. (2021). Plan de Acción de Las Tecnologías de La Lengua 2021-2024. Departamento de Cultura y Política Lingüística.

Gómez-Pérez, A. (2023). Inteligencia artificial y lengua española [Discurso de ingreso]. Real Academia Española.

Gómez-Pérez, A. (2024). Ingeniería ontológica [Discurso de ingreso]. Real Academia de Ingeniería.

Grandury, M. [@SomosPLN]. (2024, 13 de marzo). Diversidad lingüística e IA, cómo desarrollar LLMs inclusivos [Vídeo]. Youtube. https://www.youtube.com/watch?v=QCNPVy3QWFs

Gutiérrez-Fandiño, A., Armengol-Estapé, J., Pàmies, M., Llop-Palao, J., Silveira-Ocampo, J., Carrino, C. P., Gonzalez-Agirre, A., Armentano-Oller, C. , Rodríguez-Penagos y Villegas, M. (2022). Maria: Spanish language models. ArXiv. https://doi.org/10.48550/arXiv.2107.07253

Gutiérrez-Vasques, X. [@SomosPLN]. (2022, 30 de marzo). Consideraciones de NLP para lenguas minorizadas. El caso de México. Hackathon de PLN en español. [Vídeo]. Youtube. https://www.youtube.com/live/aNR7UM-E6vA?si=H1LnC7F6jqFlA_el

Helm, P., Bella, G., Koch, G. y Giunchiglia, F. (2024). Diversity and language technology: how language modeling bias causes epistemic injustice. Ethics Inf Technol, 26, 1-8. https://doi.org/10.1007/s10676-023-09742-6

Instituto Cervantes y Ministerio de Economía y Transformación Digital (2023). Estado actual de los corpus en español, lenguas cooficiales y variantes del español. Instituto Cervantes y Ministerio de Economía y Transformación Digital.

Impulso de las Lenguas en la Inteligencia Artificial. (2024). Sobre Ilenia. https://proyectoilenia.es/sobre-ilenia/

Kabatek, J. (2011). Algunos apuntes acerca de la cuestión de la “hibridez” y de la “dignidad” de las lenguas iberorrománicas. En Y. Congosto y E. Méndez (Coords.), Variación lingüística y contacto de lenguas en el mundo hispánico: in memoriam Manuel Alvar (pp. 271-289). Iberoamericana.

Kew, T., Schottmann, F. y Sennrich, R. (2023). Turning English-centric LLMs Into Polyglots: How much Multilinguality is needed? ArXiv. https://doi.org/10.48550/arXiv.2312.12683

Lagunes A., Martínez Y., Cárdenas C., De la Peña S., Mancilla D., Xilotl R., Sánchez O., Moguel A. y Cárdenas J. (2024). Propuesta de Agenda Nacional de la Inteligencia Artificial para México (2024 - 2030). Alianza Nacional de Inteligencia Artificial (ANIA).

Liu, Y., Cao, J., Liu, C., Ding, K. y Jin, L. (2024). Datasets for Large Language Models: A comprehensive Survey. arXiv. https://arxiv.org/pdf/2402.18041

Marres, N. (2017). Digital sociology: The reinvention of social research. Polity Press.

Melero, M., Peñarrubia, P., Cabestany, D., Figueras, B. C., Rodríguez, M. y Villegas, M. (2022). D1.32 Report on the Spanish Language. European Language Equality.

MinCiencia. (2024). Política Nacional de Inteligencia Artificial. Gobierno de Chile.

Ministerio de Ciencia, Tecnología e Innovación. (2024). Hoja de ruta para el desarrollo y aplicación de la Inteligencia Artificial en Colombia. Dirección de Desarrollo Tecnológico e Innovación.

Moreno Fernández, F. (2000). Qué español enseñar. Arco/Libros.

Moreno Fernández, F. (2016). La búsqueda de un 'español global’ [Ponencia]. VII Congreso Internacional de la Lengua Española. Instituto Cervantes, Real Academia Española y Asociación de Academias de la Lengua Española. https://congresosdelalengua.es/puerto-rico/paneles-ponencias/espanol-mundo/moreno-fancisco.htm

Moreno Fernández, F. (2019). El español en movimiento. En F. Moreno Fernández (Coord.), Archiletras Científica 2. El español, lengua migratoria (pp. 20-25). Prensa y Servicios de la Lengua SLU.

Moreno Fernández, F. (2022). La variación geográfica y social en los corpus lingüísticos. En G. Parodi, P. Cantos-Gómez y Ch. Howe (Eds.), Lingüística de corpus en español. The Routledge Handbook of Spanish Corpus Linguistics (pp. 296-309). Routledge.

Moreno Fernández, F. y Cestero Mancera, A. M. (2020). El proyecto PRESEEA: desarrollos analíticos. Verba: Anuario Galego de Filoloxía, 80, 119-138. https://dx.doi.org/10.15304/9788418445316

Moreno Sandoval, A. (2024). El español artificial. El español en el mundo. Anuario del Instituto Cervantes. Instituto Cervantes.

Mozilla. (2024). Common Voice datasets. https://commonvoice.mozilla.org/en/datasets

Muñoz-Basols, J., Craig, N., Lafford, B. A. y Godev, C. (2023). Potentialities of Applied Translation for Language Learning in the Era of Artificial Intelligence. Hispania, 106(2), 171–194. https://doi.org/10.1353/hpn.2023.a899427

Muñoz-Basols, J. y Fuertes Gutiérrez, M. (2024). Oportunidades de la Inteligencia Artificial (IA) en la enseñanza y el aprendizaje de lenguas. En J. Muñoz-Basols, M. Fuertes Gutiérrez y L. Cerezo (Eds.), La enseñanza del español mediada por tecnología: de la justicia social a la Inteligencia Artificial (IA) (pp. 343-364). Routledge. https://doi.org/10.4324/9781003146391-18

Muñoz-Basols, J. y Hernández Muñoz, N. (2019). El español en la era global: agentes y voces de la polifonía panhispánica. Journal of Spanish Language Teaching, 6(2), 79-95. https://doi.org/10.1080/23247797.2020.1752019

Nguyen, D. y Hekman, E. (2022). The news framing of artificial intelligence: A critical exploration of how media discourses make sense of automation. AI & SOCIETY, 39, 437-451. https://doi.org/10.1007/s00146-022-01511-1

Peláez Agudo, D. (2023). El impacto de la revolución de la IA en España y Latinoamérica. OBS Business School.

Portal Administración Electrónica. (2024, 27 de febrero). El Gobierno anuncia la construcción de un modelo de lenguaje de IA entrenado en español y las lenguas cooficiales. https://administracionelectronica.gob.es/pae_Home/pae_Actualidad/pae_Noticias/2024/Febrero/Noticia-2024-02-27

Gobierno-anuncia-modelo-fundacional-lenguaje-IA.html

Presidencia de la Nación. (2020). Plan Nacional de Inteligencia Artificial. Gobierno de Argentina.

Presidencia del Consejo de Ministros. (2021). Estrategia Nacional de Inteligencia Artificial. Documento de Trabajo para la participación de la ciudadanía 2021-2026. Secretaría de Gobierno y Transformación Digital.

Projecte-aina. (2024a, 21 de julio). FLOR-6.3B. Hugging Face. https://huggingface.co/projecte-aina/FLOR-6.3B

Projecte-aina. (2024b, 21 de julio). Ǎguila-7B. Hugging Face. https://huggingface.co/projecte-aina/aguila-7b

Proyecto NEL-Vives. (2024, 21 de julio). How to give your voice. VIVES. https://vives.gplsi.es/instruccions/

Real Academia Española. (2022a, 20 de mayo). El presidente de Microsoft visita la RAE [Nota de prensa]. Real Academia Española. https://www.rae.es/noticia/el-presidente-de-microsoft-visita-la-rae

Real Academia Española. (2022b, 26 de mayo). La RAE y AWS presentan una herramienta basada en inteligencia artificial para conocer el estado del español en Internet [Nota de prensa]. Real Academia Española. https://www.rae.es/noticia/la-rae-y-aws-presentan-una-herramienta-basada-en-inteligencia-artificial-para-conocer-el

Real Academia Española y Asociación de Academias de la Lengua Española. (2004). La nueva política lingüística panhispánica. Real Academia Española.

Roden, B., Lusher, D., Spurling, T. H., Simpson, G. W., Klein, T., Brailly, J. y Hogan, B. (2022). Avoiding GIGO: Learnings from data collection in innovation research. Social Networks, 69, 3–13. https://doi.org/10.1016/j.socnet.2020.04.005

Vaca Serrano, A., García Subies, G., Montoro Zamorano, H., Aldama García, N., Samy, D., Betancur Sánchez, D., Moreno-Sandoval, A., Guerrero Nieto, M. y Barbero Jiménez, Á. (2022). Rigoberta: a state-of-the-art language model for Spanish. ArXiv. https://doi.org/10.48550/arXiv.2205.10233

Villalobos, P., Sevilla, J., Heim, L., Besiroglu, T., Hobbhahn, M. y Ho, A. (2022). Will we run out of data? an analysis of the limits of scaling datasets in machine learning. arXiv. https://doi.org/10.48550/arXiv.2211.04325

VV. AA. (2023). Índice latinoamericano de inteligencia artificial. Centro Nacional de Inteligencia Artificial. CENIA.

Zeballos, R., Ortega, J., Chen, W., Castro, R., Bel. N., Yoshikawa, C., Ventura, R., Aradiel, H. y Melgarejo, N. (2022). Introducing QuBERT: A Large Monolingual Corpus and BERT model for Southern Quechua. En C. Cherry, A. Fan, G. Foster, G. Haffari, S. Khadivi, N. Peng, X. Ren, E. Shareghi y S. Swayamdipta (Eds.), Proceedings of the Third Workshop on Deep Learning for Low-Resource Natural Language Processing (pp. 1-13). Association for Computational Linguistics.

Descargas

Publicado

2024-12-30

Número

Sección

Dossier sobre inteligencia artificial, lenguaje y discurso digital

Cómo citar

Muñoz-Basols, J., Palomares Marín, M. del M., & Moreno Fernández, F. (2024). El Sesgo Lingüístico Digital (SLD) en la inteligencia artificial: implicaciones para los modelos de lenguaje masivos en español. Lengua Y Sociedad, 23(2), 623-647. https://doi.org/10.15381/lengsoc.v23i2.28665