El Sesgo Lingüístico Digital (SLD) en la inteligencia artificial: implicaciones para los modelos de lenguaje masivos en español
DOI:
https://doi.org/10.15381/lengsoc.v23i2.28665Palabras clave:
inteligencia artificial generativa (IAGen), Modelos de Lenguaje Masivos (MLM), Sesgo Lingüístico Digital (SLD), diversidad de la lengua, españolResumen
La llegada de la inteligencia artificial generativa a nivel de usuario, especialmente a partir de los Modelos de Lenguaje Masivos (MLM), nos obliga a reflexionar sobre la proliferación de sesgos en la construcción, desarrollo, uso y representatividad de estos modelos basados en datos lingüísticos. En este artículo, se revisan las iniciativas desarrolladas para el español en el campo de la inteligencia artificial (IA), tanto desde la América hispanohablante como desde España, de modo que se presta especial atención a los recursos lingüísticos y a los MLM. Se examina la composición de los principales MLM actuales del español y se comparan con otros MLM de lenguas peninsulares (catalán, euskera, gallego y valenciano). Asimismo, se introduce el término Sesgo Lingüístico Digital (SLD) para identificar la hibridez lingüística que la IA genera tanto a nivel interlingüístico (p. ej., en relación con la base del inglés utilizada para entrenar estos modelos) como intralingüístico (en relación con las distintas variedades de la lengua). Finalmente, se sugiere que un usuario con conciencia digital podrá contribuir a mitigar los efectos del SLD. En conclusión, se enfatiza la necesidad de una acción coordinada por parte de los agentes institucionales para preservar la diversidad del patrimonio lingüístico hispanohablante en el desarrollo de los MLM.
Referencias
Agesic. (2019). Estrategia de Inteligencia Artificial para el Gobierno Digital. Gobierno de Uruguay.
Alonso, R. (2024, 15 de mayo). El gobierno acelera el desarrollo de ChatGPT español y el uso de la Inteligencia Artificial en pymes. ABC. https://www.abc.es/tecnologia/gobierno-destinara-1500-millones-euros-desarrollo-ia-20240514132352-nt.html?ref=https%3A%2F%2Fwww.google.com%2F
Amaratunga, T. (2023). Understanding Large Language Models. Apress.
Arancibia, D., Ávila, C., Caro, M. J., Girardi, J., González, N., Guridi, J. A. y Rivera, A. (2021). Política Nacional de Inteligencia Artificial. Chile IA. Ministerio de Ciencia, Tecnología, Conocimiento e Innovación.
Artetxe, M., Aldabe, I., Agerri, R., Perez-de-Viñaspre, O. y Soroa, A. (2022). Does corpus quality really matter for low-resource languages? arXiv. https://doi.org/10.48550/arXiv.2203.08111
Asociación Española de Terminología. (2024). TERESIA. https://aeter.org/teresia/
Biblioteca Nacional de España. (2024). El Archivo de la Web España. https://www.bne.es/es/colecciones/archivo-web-espanola
Barcelona Supercomputing Center. (2024a, 17 de enero). BSC to develop multilingual models in Aranese through Aina [nota de prensa]. https://www.bsc.es/news/bsc-news/bsc-develop-multilingual-models-aranese-through-aina
Barcelona Supercomputing Center. (2024b, 28 de febrero). El BSC pone en marcha Aina Challenge, la primera convocatoria oficial de proyectos de inteligencia artificial en catalán [nota de prensa]. https://www.bsc.es/es/noticias/noticias-del-bsc/el-bsc-pone-en-marcha-aina-challenge-la-primera-convocatoria-oficial-de-proyectos-de-inteligencia
Campusa. (2024, 31 de enero). HiTZ Zentroa desarrolla el mayor modelo del lenguaje para el euskera: Latxa. Campusa, Noticias de la Universidad del País Vasco. https://www.ehu.eus/es/-/hitz-zentroa-desarrolla-mayor-modelo-lenguaje-euskera-latxa
Cañete, J., Chaperon, G., Fuentes, R., Ho, J., Kang, H. y Pérez, J. (2023). Spanish Pre-trained BERT Model and Evaluation Data. arXiv. https://doi.org/10.48550/arXiv.2308.02976
Cañete, J., Donoso, S., Bravo-Marquez, F., Carvallo, A. y Araujo, V. (2022). ALBETO and DistilBETO: Lightweight Spanish Language Model. arXiv.
Comunidad ELOTL (2020). Corpus paralelo Otomí-español. https://elotl.mx/proyectos/corpus-paralelo-otomi-espanol/
Company Company, C. (2019). Jerarquías dialectales y conflictos entre teoría y práctica. Perspectivas desde la Asociación de Academias de la Lengua Española (ASALE). Journal of Spanish Language Teaching, 6(2), 96-105. https://doi.org/10.1080/23247797.2019.1668179
Dafoe, A. (2018). AI Governance: a Research Agenda. https://www.fhi.ox.ac.uk/wp-content/uploads/GovAI-Agenda.pdf
De-Dios-Flores, I., Paniagua Suárez, S., Carbajal Pérez, C., Bardanca Outeiriño, D., Garcia, M. y Gamallo, P. (2024). CorpusNÓS: A massive Galician corpus for training large language models. arXiv. https://iv.org/html/2406.13893v1/arx
De la Rosa, J., Ponferrada, E. G., Villegas, P., González, P., Romero, M. y Grandury, M. (2022). BERTIN: Efficient Pre-Training of a Spanish Language Model using Perplexity Sampling. Procesamiento del Lenguaje Natural, 68, 13-23. http://journal.sepln.org/sepln/ojs/ojs/index.php/pln/article/view/6403
Del Rey Quesada, S. (2021). Lo marcado y lo no marcado en la cadena de variedades: apuntes para una nueva propuesta. En T. Gruber, K. Grübl y T. Scharinger (Eds), Was bleibt von kommunikativer Nähe und Distanz? Mediale und konzeptionelle Aspekte sprachlicher Variation (pp. 205-238). Narr.
El Debate. (2024, 30 de mayo). Santiago Muñoz Machado: “El peligro está en que se formen dialectos digitales que laminen nuestro idioma”. El Debate. https://www.eldebate.com/sociedad/20240530/santiago-munoz-machado-peligro-esta-formen-dialectos-digitales-laminen-nuestro-idioma_201254.html
Etxaniz, J., Sainz, O., Perez, N., Aldabe, I., Rigau, G., Aguirre, E., Ormazabal, A., Artetxe, M. y Soroa, A., (2024). Latxa: An Open Language Model and Evaluation Suite for Basque. arXiv. https://doi.org/10.48550/arXiv.2403.20266
Fundación Comillas. (2023). Corpus del español de los negocios (CORPEN-FUNDACIÓN COMILLAS). https://fundacioncomillas.es/wp-content/uploads/2023/03/proyecto-corpen-fundacion-comillas.pdf
Gallardo, C. (2024, 28 de febrero). Spain to develop open-source LLM trained in Spanish, regional languages. Sifted. https://sifted.eu/articles/spain-large-language-model-generative-ai
Gamallo, P., Rodríguez, P., de-Dios-Flores, I., Sotelo, S., Paniagua, S., Bardanca, D., Pichel, J. R. y Garcia, M. (2024). Open Generative Large Language Models for Galician. ArXiv. https://arxiv.org/pdf/2406.13893v1
García Montero, L. (2022). Reflexiones precavidas sobre la inteligencia artificial. En C. Pastor Villalba (Dir.), El español en el mundo 2022. Anuario del Instituto Cervantes (pp. 135-144). Instituto Cervantes.
Gobierno de España. (2022, 26 de junio). El gobierno concede una subvención de 5 millones de euros a la RAE para ejecutar el proyecto ‘Lengua española e Inteligencia Artificial’ (LEIA). https://planderecuperacion.gob.es/noticias/el-gobierno-concede-una-subvencion-de-5-millones-de-euros-a-la-rae-para-ejecutar-el-proyecto-leia
Gobierno de España (2023, 15 de diciembre). Conoce “TeresIA” para la traducción de terminología en español mediante Inteligencia Artificial. https://planderecuperacion.gob.es/noticias/conoce-proyecto-teresia-traduccion-terminologia-espanol-inteligencia-artificial-IA-prtr
Gobierno de España (2024). Estrategia de Inteligencia Artificial 2024. https://portal.mineco.gob.es/es-es/digitalizacionIA/Documents/Estrategia_IA_2024.pdf
Gobierno Vasco. (2021). Plan de Acción de Las Tecnologías de La Lengua 2021-2024. Departamento de Cultura y Política Lingüística.
Gómez-Pérez, A. (2023). Inteligencia artificial y lengua española [Discurso de ingreso]. Real Academia Española.
Gómez-Pérez, A. (2024). Ingeniería ontológica [Discurso de ingreso]. Real Academia de Ingeniería.
Grandury, M. [@SomosPLN]. (2024, 13 de marzo). Diversidad lingüística e IA, cómo desarrollar LLMs inclusivos [Vídeo]. Youtube. https://www.youtube.com/watch?v=QCNPVy3QWFs
Gutiérrez-Fandiño, A., Armengol-Estapé, J., Pàmies, M., Llop-Palao, J., Silveira-Ocampo, J., Carrino, C. P., Gonzalez-Agirre, A., Armentano-Oller, C. , Rodríguez-Penagos y Villegas, M. (2022). Maria: Spanish language models. ArXiv. https://doi.org/10.48550/arXiv.2107.07253
Gutiérrez-Vasques, X. [@SomosPLN]. (2022, 30 de marzo). Consideraciones de NLP para lenguas minorizadas. El caso de México. Hackathon de PLN en español. [Vídeo]. Youtube. https://www.youtube.com/live/aNR7UM-E6vA?si=H1LnC7F6jqFlA_el
Helm, P., Bella, G., Koch, G. y Giunchiglia, F. (2024). Diversity and language technology: how language modeling bias causes epistemic injustice. Ethics Inf Technol, 26, 1-8. https://doi.org/10.1007/s10676-023-09742-6
Instituto Cervantes y Ministerio de Economía y Transformación Digital (2023). Estado actual de los corpus en español, lenguas cooficiales y variantes del español. Instituto Cervantes y Ministerio de Economía y Transformación Digital.
Impulso de las Lenguas en la Inteligencia Artificial. (2024). Sobre Ilenia. https://proyectoilenia.es/sobre-ilenia/
Kabatek, J. (2011). Algunos apuntes acerca de la cuestión de la “hibridez” y de la “dignidad” de las lenguas iberorrománicas. En Y. Congosto y E. Méndez (Coords.), Variación lingüística y contacto de lenguas en el mundo hispánico: in memoriam Manuel Alvar (pp. 271-289). Iberoamericana.
Kew, T., Schottmann, F. y Sennrich, R. (2023). Turning English-centric LLMs Into Polyglots: How much Multilinguality is needed? ArXiv. https://doi.org/10.48550/arXiv.2312.12683
Lagunes A., Martínez Y., Cárdenas C., De la Peña S., Mancilla D., Xilotl R., Sánchez O., Moguel A. y Cárdenas J. (2024). Propuesta de Agenda Nacional de la Inteligencia Artificial para México (2024 - 2030). Alianza Nacional de Inteligencia Artificial (ANIA).
Liu, Y., Cao, J., Liu, C., Ding, K. y Jin, L. (2024). Datasets for Large Language Models: A comprehensive Survey. arXiv. https://arxiv.org/pdf/2402.18041
Marres, N. (2017). Digital sociology: The reinvention of social research. Polity Press.
Melero, M., Peñarrubia, P., Cabestany, D., Figueras, B. C., Rodríguez, M. y Villegas, M. (2022). D1.32 Report on the Spanish Language. European Language Equality.
MinCiencia. (2024). Política Nacional de Inteligencia Artificial. Gobierno de Chile.
Ministerio de Ciencia, Tecnología e Innovación. (2024). Hoja de ruta para el desarrollo y aplicación de la Inteligencia Artificial en Colombia. Dirección de Desarrollo Tecnológico e Innovación.
Moreno Fernández, F. (2000). Qué español enseñar. Arco/Libros.
Moreno Fernández, F. (2016). La búsqueda de un 'español global’ [Ponencia]. VII Congreso Internacional de la Lengua Española. Instituto Cervantes, Real Academia Española y Asociación de Academias de la Lengua Española. https://congresosdelalengua.es/puerto-rico/paneles-ponencias/espanol-mundo/moreno-fancisco.htm
Moreno Fernández, F. (2019). El español en movimiento. En F. Moreno Fernández (Coord.), Archiletras Científica 2. El español, lengua migratoria (pp. 20-25). Prensa y Servicios de la Lengua SLU.
Moreno Fernández, F. (2022). La variación geográfica y social en los corpus lingüísticos. En G. Parodi, P. Cantos-Gómez y Ch. Howe (Eds.), Lingüística de corpus en español. The Routledge Handbook of Spanish Corpus Linguistics (pp. 296-309). Routledge.
Moreno Fernández, F. y Cestero Mancera, A. M. (2020). El proyecto PRESEEA: desarrollos analíticos. Verba: Anuario Galego de Filoloxía, 80, 119-138. https://dx.doi.org/10.15304/9788418445316
Moreno Sandoval, A. (2024). El español artificial. El español en el mundo. Anuario del Instituto Cervantes. Instituto Cervantes.
Mozilla. (2024). Common Voice datasets. https://commonvoice.mozilla.org/en/datasets
Muñoz-Basols, J., Craig, N., Lafford, B. A. y Godev, C. (2023). Potentialities of Applied Translation for Language Learning in the Era of Artificial Intelligence. Hispania, 106(2), 171–194. https://doi.org/10.1353/hpn.2023.a899427
Muñoz-Basols, J. y Fuertes Gutiérrez, M. (2024). Oportunidades de la Inteligencia Artificial (IA) en la enseñanza y el aprendizaje de lenguas. En J. Muñoz-Basols, M. Fuertes Gutiérrez y L. Cerezo (Eds.), La enseñanza del español mediada por tecnología: de la justicia social a la Inteligencia Artificial (IA) (pp. 343-364). Routledge. https://doi.org/10.4324/9781003146391-18
Muñoz-Basols, J. y Hernández Muñoz, N. (2019). El español en la era global: agentes y voces de la polifonía panhispánica. Journal of Spanish Language Teaching, 6(2), 79-95. https://doi.org/10.1080/23247797.2020.1752019
Nguyen, D. y Hekman, E. (2022). The news framing of artificial intelligence: A critical exploration of how media discourses make sense of automation. AI & SOCIETY, 39, 437-451. https://doi.org/10.1007/s00146-022-01511-1
Peláez Agudo, D. (2023). El impacto de la revolución de la IA en España y Latinoamérica. OBS Business School.
Portal Administración Electrónica. (2024, 27 de febrero). El Gobierno anuncia la construcción de un modelo de lenguaje de IA entrenado en español y las lenguas cooficiales. https://administracionelectronica.gob.es/pae_Home/pae_Actualidad/pae_Noticias/2024/Febrero/Noticia-2024-02-27
Gobierno-anuncia-modelo-fundacional-lenguaje-IA.html
Presidencia de la Nación. (2020). Plan Nacional de Inteligencia Artificial. Gobierno de Argentina.
Presidencia del Consejo de Ministros. (2021). Estrategia Nacional de Inteligencia Artificial. Documento de Trabajo para la participación de la ciudadanía 2021-2026. Secretaría de Gobierno y Transformación Digital.
Projecte-aina. (2024a, 21 de julio). FLOR-6.3B. Hugging Face. https://huggingface.co/projecte-aina/FLOR-6.3B
Projecte-aina. (2024b, 21 de julio). Ǎguila-7B. Hugging Face. https://huggingface.co/projecte-aina/aguila-7b
Proyecto NEL-Vives. (2024, 21 de julio). How to give your voice. VIVES. https://vives.gplsi.es/instruccions/
Real Academia Española. (2022a, 20 de mayo). El presidente de Microsoft visita la RAE [Nota de prensa]. Real Academia Española. https://www.rae.es/noticia/el-presidente-de-microsoft-visita-la-rae
Real Academia Española. (2022b, 26 de mayo). La RAE y AWS presentan una herramienta basada en inteligencia artificial para conocer el estado del español en Internet [Nota de prensa]. Real Academia Española. https://www.rae.es/noticia/la-rae-y-aws-presentan-una-herramienta-basada-en-inteligencia-artificial-para-conocer-el
Real Academia Española y Asociación de Academias de la Lengua Española. (2004). La nueva política lingüística panhispánica. Real Academia Española.
Roden, B., Lusher, D., Spurling, T. H., Simpson, G. W., Klein, T., Brailly, J. y Hogan, B. (2022). Avoiding GIGO: Learnings from data collection in innovation research. Social Networks, 69, 3–13. https://doi.org/10.1016/j.socnet.2020.04.005
Vaca Serrano, A., García Subies, G., Montoro Zamorano, H., Aldama García, N., Samy, D., Betancur Sánchez, D., Moreno-Sandoval, A., Guerrero Nieto, M. y Barbero Jiménez, Á. (2022). Rigoberta: a state-of-the-art language model for Spanish. ArXiv. https://doi.org/10.48550/arXiv.2205.10233
Villalobos, P., Sevilla, J., Heim, L., Besiroglu, T., Hobbhahn, M. y Ho, A. (2022). Will we run out of data? an analysis of the limits of scaling datasets in machine learning. arXiv. https://doi.org/10.48550/arXiv.2211.04325
VV. AA. (2023). Índice latinoamericano de inteligencia artificial. Centro Nacional de Inteligencia Artificial. CENIA.
Zeballos, R., Ortega, J., Chen, W., Castro, R., Bel. N., Yoshikawa, C., Ventura, R., Aradiel, H. y Melgarejo, N. (2022). Introducing QuBERT: A Large Monolingual Corpus and BERT model for Southern Quechua. En C. Cherry, A. Fan, G. Foster, G. Haffari, S. Khadivi, N. Peng, X. Ren, E. Shareghi y S. Swayamdipta (Eds.), Proceedings of the Third Workshop on Deep Learning for Low-Resource Natural Language Processing (pp. 1-13). Association for Computational Linguistics.
Descargas
Publicado
Número
Sección
Licencia
Derechos de autor 2024 Javier Muñoz-Basols, María del Mar Palomares Marín, Francisco Moreno Fernández

Esta obra está bajo una licencia internacional Creative Commons Atribución 4.0.
LOS AUTORES RETIENEN SUS DERECHOS:
a. Los autores retienen sus derechos de marca y patente, y también sobre cualquier proceso o procedimiento descrito en el artículo.
b. Los autores pueden presentar a la revista Lengua y Sociedad, trabajos difundidos como pre-print en repositorios. Esto debe hacerse conocer en la carta de presentacion del trabajo.
c. Los autores retienen el derecho de compartir, copiar, distribuir, ejecutar y comunicar públicamente el artículo publicado en la revista Lengua y Sociedad (por ejemplo, colocarlo en un repositorio institucional o publicarlo en un libro), con un reconocimiento de su publicación inicial en la revista Lengua y Sociedad.
d. Los autores retienen el derecho a hacer una posterior publicación de su trabajo, de utilizar el artículo o cualquier parte de aquel (por ejemplo: una compilación de sus trabajos, notas para conferencias, tesis, o para un libro), siempre que indiquen su publicación inicial en la revista Lengua y Sociedad (autores del trabajo, revista, volumen, número y fecha).