O Viés Linguístico Digital (VLD) na Inteligência Artificial: implicações para grandes modelos de linguagem em espanhol

Autores

  • Javier Muñoz-Basols University of Oxford, Reino Unido https://orcid.org/0000-0003-3856-3637
  • María del Mar Palomares Marín University of Limerick, Irlanda https://orcid.org/0000-0002-8474-3375
  • Francisco Moreno Fernández Observatorio Global del Español, Instituto Cervantes, España - Universität Heidelberg, Alemania

DOI:

https://doi.org/10.15381/lengsoc.v23i2.28665

Palavras-chave:

inteligência artificial gerativa (AIGer), Grandes Modelos de Linguagem (GML), Viés Linguístico Digital (DLB), diversidade linguística, espanhol

Resumo

O advento da inteligência artificial generativa no nível do usuário, especialmente por meio do desenvolvimento de Grandes Modelos de Linguagem (GML), nos leva a refletir sobre a proliferação de vieses na construção, no desenvolvimento, no uso e na representatividade desses modelos baseados em dados linguísticos. Este artigo analisa, em primeiro lugar, as iniciativas desenvolvidas para o espanhol no campo da IA, tanto na América de língua espanhola quanto na Espanha, dando atenção especial aos recursos linguísticos e aos GML. A composição dos principais GML atuais do espanhol é examinada e comparada com outros GML de idiomas peninsulares (catalão, basco, galego e valenciano). Além disso, o termo Viés Linguístico Digital (VLD), que é específico da IA, é apresentado, tanto em nível inter quanto intralinguístico. Por fim, sugere-se que um usuário digitalmente consciente poderá contribuir para atenuar os efeitos do VLD. Para concluir, enfatiza-se a necessidade de uma ação coordenada dos agentes institucionais para preservar a diversidade do patrimônio linguístico de língua espanhola no desenvolvimento de GML.

Biografia do Autor

  • Javier Muñoz-Basols, University of Oxford, Reino Unido

    Es Investigador Distinguido Sénior Beatriz Galindo en la Universidad de Sevilla (España) y Honorary Faculty Research Fellow en la Universidad de Oxford (Reino Unido). Es investigador principal del “Portal de lingüística hispánica” y coinvestigador principal del proyecto de Humanidades Digitales COMUN-ES (www.comun-es.com). Es cofundador y editor jefe del Journal of Spanish Language Teaching, corresponsal del Observatorio Permanente del Hispanismo la Fundación Duques de Soria, miembro del Patronato del Instituto Cervantes, académico correspondiente de la Academia Norteamericana de la Lengua Española (ANLE) y presidente de la Asociación para la Enseñanza del Español como Lengua Extranjera (ASELE).

  • María del Mar Palomares Marín, University of Limerick, Irlanda

    Es doctora en Lingüística Aplicada por la Universidad de Murcia (España). Ha trabajado como Assistant Lecturer in Information Technology en la Technological University Dublin, donde también ha trabajado en el área de español de negocios y español para extranjeros. Cuenta con amplia experiencia en la educación ELE de adultos (programa Lifelong Learning de University College Dublin), y como tutora y teaching fellow de español y literatura para estudiantes universitarios (University College Dublin). Actualmente, es Assistant Professor in Spanish en la Universidad de Limerick, donde participa en varios proyectos de Inteligencia Artificial. Sus líneas de investigación se centran en la tecnología educativa y la Inteligencia Artificial aplicada a la enseñanza de lenguas.

  • Francisco Moreno Fernández, Observatorio Global del Español, Instituto Cervantes, España - Universität Heidelberg, Alemania

    Es director del Observatorio Global del Español del Instituto Cervantes, catedrático Alexander von Humboldt en la Universidad de Heidelberg y profesor honorario de la Universidad de Alcalá. Su investigación se ha ocupado de temas relativos a la dialectología y la sociolingüística del español, así como de las lenguas internacionales y la globalización lingüística. Editor jefe de la revista Spanish in Context y coeditor de Journal of Linguistic Geography. Académico de número de la Academia Europaea y de la Academia Norteamericana de la Lengua Española (ANLE), así como correspondiente de las Academias Cubana, Chilena y Mexicana de la Lengua, y de la Real Academia Española.

Referências

Agesic. (2019). Estrategia de Inteligencia Artificial para el Gobierno Digital. Gobierno de Uruguay.

Alonso, R. (2024, 15 de mayo). El gobierno acelera el desarrollo de ChatGPT español y el uso de la Inteligencia Artificial en pymes. ABC. https://www.abc.es/tecnologia/gobierno-destinara-1500-millones-euros-desarrollo-ia-20240514132352-nt.html?ref=https%3A%2F%2Fwww.google.com%2F

Amaratunga, T. (2023). Understanding Large Language Models. Apress.

Arancibia, D., Ávila, C., Caro, M. J., Girardi, J., González, N., Guridi, J. A. y Rivera, A. (2021). Política Nacional de Inteligencia Artificial. Chile IA. Ministerio de Ciencia, Tecnología, Conocimiento e Innovación.

Artetxe, M., Aldabe, I., Agerri, R., Perez-de-Viñaspre, O. y Soroa, A. (2022). Does corpus quality really matter for low-resource languages? arXiv. https://doi.org/10.48550/arXiv.2203.08111

Asociación Española de Terminología. (2024). TERESIA. https://aeter.org/teresia/

Biblioteca Nacional de España. (2024). El Archivo de la Web España. https://www.bne.es/es/colecciones/archivo-web-espanola

Barcelona Supercomputing Center. (2024a, 17 de enero). BSC to develop multilingual models in Aranese through Aina [nota de prensa]. https://www.bsc.es/news/bsc-news/bsc-develop-multilingual-models-aranese-through-aina

Barcelona Supercomputing Center. (2024b, 28 de febrero). El BSC pone en marcha Aina Challenge, la primera convocatoria oficial de proyectos de inteligencia artificial en catalán [nota de prensa]. https://www.bsc.es/es/noticias/noticias-del-bsc/el-bsc-pone-en-marcha-aina-challenge-la-primera-convocatoria-oficial-de-proyectos-de-inteligencia

Campusa. (2024, 31 de enero). HiTZ Zentroa desarrolla el mayor modelo del lenguaje para el euskera: Latxa. Campusa, Noticias de la Universidad del País Vasco. https://www.ehu.eus/es/-/hitz-zentroa-desarrolla-mayor-modelo-lenguaje-euskera-latxa

Cañete, J., Chaperon, G., Fuentes, R., Ho, J., Kang, H. y Pérez, J. (2023). Spanish Pre-trained BERT Model and Evaluation Data. arXiv. https://doi.org/10.48550/arXiv.2308.02976

Cañete, J., Donoso, S., Bravo-Marquez, F., Carvallo, A. y Araujo, V. (2022). ALBETO and DistilBETO: Lightweight Spanish Language Model. arXiv.

Comunidad ELOTL (2020). Corpus paralelo Otomí-español. https://elotl.mx/proyectos/corpus-paralelo-otomi-espanol/

Company Company, C. (2019). Jerarquías dialectales y conflictos entre teoría y práctica. Perspectivas desde la Asociación de Academias de la Lengua Española (ASALE). Journal of Spanish Language Teaching, 6(2), 96-105. https://doi.org/10.1080/23247797.2019.1668179

Dafoe, A. (2018). AI Governance: a Research Agenda. https://www.fhi.ox.ac.uk/wp-content/uploads/GovAI-Agenda.pdf

De-Dios-Flores, I., Paniagua Suárez, S., Carbajal Pérez, C., Bardanca Outeiriño, D., Garcia, M. y Gamallo, P. (2024). CorpusNÓS: A massive Galician corpus for training large language models. arXiv. https://iv.org/html/2406.13893v1/arx

De la Rosa, J., Ponferrada, E. G., Villegas, P., González, P., Romero, M. y Grandury, M. (2022). BERTIN: Efficient Pre-Training of a Spanish Language Model using Perplexity Sampling. Procesamiento del Lenguaje Natural, 68, 13-23. http://journal.sepln.org/sepln/ojs/ojs/index.php/pln/article/view/6403

Del Rey Quesada, S. (2021). Lo marcado y lo no marcado en la cadena de variedades: apuntes para una nueva propuesta. En T. Gruber, K. Grübl y T. Scharinger (Eds), Was bleibt von kommunikativer Nähe und Distanz? Mediale und konzeptionelle Aspekte sprachlicher Variation (pp. 205-238). Narr.

El Debate. (2024, 30 de mayo). Santiago Muñoz Machado: “El peligro está en que se formen dialectos digitales que laminen nuestro idioma”. El Debate. https://www.eldebate.com/sociedad/20240530/santiago-munoz-machado-peligro-esta-formen-dialectos-digitales-laminen-nuestro-idioma_201254.html

Etxaniz, J., Sainz, O., Perez, N., Aldabe, I., Rigau, G., Aguirre, E., Ormazabal, A., Artetxe, M. y Soroa, A., (2024). Latxa: An Open Language Model and Evaluation Suite for Basque. arXiv. https://doi.org/10.48550/arXiv.2403.20266

Fundación Comillas. (2023). Corpus del español de los negocios (CORPEN-FUNDACIÓN COMILLAS). https://fundacioncomillas.es/wp-content/uploads/2023/03/proyecto-corpen-fundacion-comillas.pdf

Gallardo, C. (2024, 28 de febrero). Spain to develop open-source LLM trained in Spanish, regional languages. Sifted. https://sifted.eu/articles/spain-large-language-model-generative-ai

Gamallo, P., Rodríguez, P., de-Dios-Flores, I., Sotelo, S., Paniagua, S., Bardanca, D., Pichel, J. R. y Garcia, M. (2024). Open Generative Large Language Models for Galician. ArXiv. https://arxiv.org/pdf/2406.13893v1

García Montero, L. (2022). Reflexiones precavidas sobre la inteligencia artificial. En C. Pastor Villalba (Dir.), El español en el mundo 2022. Anuario del Instituto Cervantes (pp. 135-144). Instituto Cervantes.

Gobierno de España. (2022, 26 de junio). El gobierno concede una subvención de 5 millones de euros a la RAE para ejecutar el proyecto ‘Lengua española e Inteligencia Artificial’ (LEIA). https://planderecuperacion.gob.es/noticias/el-gobierno-concede-una-subvencion-de-5-millones-de-euros-a-la-rae-para-ejecutar-el-proyecto-leia

Gobierno de España (2023, 15 de diciembre). Conoce “TeresIA” para la traducción de terminología en español mediante Inteligencia Artificial. https://planderecuperacion.gob.es/noticias/conoce-proyecto-teresia-traduccion-terminologia-espanol-inteligencia-artificial-IA-prtr

Gobierno de España (2024). Estrategia de Inteligencia Artificial 2024. https://portal.mineco.gob.es/es-es/digitalizacionIA/Documents/Estrategia_IA_2024.pdf

Gobierno Vasco. (2021). Plan de Acción de Las Tecnologías de La Lengua 2021-2024. Departamento de Cultura y Política Lingüística.

Gómez-Pérez, A. (2023). Inteligencia artificial y lengua española [Discurso de ingreso]. Real Academia Española.

Gómez-Pérez, A. (2024). Ingeniería ontológica [Discurso de ingreso]. Real Academia de Ingeniería.

Grandury, M. [@SomosPLN]. (2024, 13 de marzo). Diversidad lingüística e IA, cómo desarrollar LLMs inclusivos [Vídeo]. Youtube. https://www.youtube.com/watch?v=QCNPVy3QWFs

Gutiérrez-Fandiño, A., Armengol-Estapé, J., Pàmies, M., Llop-Palao, J., Silveira-Ocampo, J., Carrino, C. P., Gonzalez-Agirre, A., Armentano-Oller, C. , Rodríguez-Penagos y Villegas, M. (2022). Maria: Spanish language models. ArXiv. https://doi.org/10.48550/arXiv.2107.07253

Gutiérrez-Vasques, X. [@SomosPLN]. (2022, 30 de marzo). Consideraciones de NLP para lenguas minorizadas. El caso de México. Hackathon de PLN en español. [Vídeo]. Youtube. https://www.youtube.com/live/aNR7UM-E6vA?si=H1LnC7F6jqFlA_el

Helm, P., Bella, G., Koch, G. y Giunchiglia, F. (2024). Diversity and language technology: how language modeling bias causes epistemic injustice. Ethics Inf Technol, 26, 1-8. https://doi.org/10.1007/s10676-023-09742-6

Instituto Cervantes y Ministerio de Economía y Transformación Digital (2023). Estado actual de los corpus en español, lenguas cooficiales y variantes del español. Instituto Cervantes y Ministerio de Economía y Transformación Digital.

Impulso de las Lenguas en la Inteligencia Artificial. (2024). Sobre Ilenia. https://proyectoilenia.es/sobre-ilenia/

Kabatek, J. (2011). Algunos apuntes acerca de la cuestión de la “hibridez” y de la “dignidad” de las lenguas iberorrománicas. En Y. Congosto y E. Méndez (Coords.), Variación lingüística y contacto de lenguas en el mundo hispánico: in memoriam Manuel Alvar (pp. 271-289). Iberoamericana.

Kew, T., Schottmann, F. y Sennrich, R. (2023). Turning English-centric LLMs Into Polyglots: How much Multilinguality is needed? ArXiv. https://doi.org/10.48550/arXiv.2312.12683

Lagunes A., Martínez Y., Cárdenas C., De la Peña S., Mancilla D., Xilotl R., Sánchez O., Moguel A. y Cárdenas J. (2024). Propuesta de Agenda Nacional de la Inteligencia Artificial para México (2024 - 2030). Alianza Nacional de Inteligencia Artificial (ANIA).

Liu, Y., Cao, J., Liu, C., Ding, K. y Jin, L. (2024). Datasets for Large Language Models: A comprehensive Survey. arXiv. https://arxiv.org/pdf/2402.18041

Marres, N. (2017). Digital sociology: The reinvention of social research. Polity Press.

Melero, M., Peñarrubia, P., Cabestany, D., Figueras, B. C., Rodríguez, M. y Villegas, M. (2022). D1.32 Report on the Spanish Language. European Language Equality.

MinCiencia. (2024). Política Nacional de Inteligencia Artificial. Gobierno de Chile.

Ministerio de Ciencia, Tecnología e Innovación. (2024). Hoja de ruta para el desarrollo y aplicación de la Inteligencia Artificial en Colombia. Dirección de Desarrollo Tecnológico e Innovación.

Moreno Fernández, F. (2000). Qué español enseñar. Arco/Libros.

Moreno Fernández, F. (2016). La búsqueda de un 'español global’ [Ponencia]. VII Congreso Internacional de la Lengua Española. Instituto Cervantes, Real Academia Española y Asociación de Academias de la Lengua Española. https://congresosdelalengua.es/puerto-rico/paneles-ponencias/espanol-mundo/moreno-fancisco.htm

Moreno Fernández, F. (2019). El español en movimiento. En F. Moreno Fernández (Coord.), Archiletras Científica 2. El español, lengua migratoria (pp. 20-25). Prensa y Servicios de la Lengua SLU.

Moreno Fernández, F. (2022). La variación geográfica y social en los corpus lingüísticos. En G. Parodi, P. Cantos-Gómez y Ch. Howe (Eds.), Lingüística de corpus en español. The Routledge Handbook of Spanish Corpus Linguistics (pp. 296-309). Routledge.

Moreno Fernández, F. y Cestero Mancera, A. M. (2020). El proyecto PRESEEA: desarrollos analíticos. Verba: Anuario Galego de Filoloxía, 80, 119-138. https://dx.doi.org/10.15304/9788418445316

Moreno Sandoval, A. (2024). El español artificial. El español en el mundo. Anuario del Instituto Cervantes. Instituto Cervantes.

Mozilla. (2024). Common Voice datasets. https://commonvoice.mozilla.org/en/datasets

Muñoz-Basols, J., Craig, N., Lafford, B. A. y Godev, C. (2023). Potentialities of Applied Translation for Language Learning in the Era of Artificial Intelligence. Hispania, 106(2), 171–194. https://doi.org/10.1353/hpn.2023.a899427

Muñoz-Basols, J. y Fuertes Gutiérrez, M. (2024). Oportunidades de la Inteligencia Artificial (IA) en la enseñanza y el aprendizaje de lenguas. En J. Muñoz-Basols, M. Fuertes Gutiérrez y L. Cerezo (Eds.), La enseñanza del español mediada por tecnología: de la justicia social a la Inteligencia Artificial (IA) (pp. 343-364). Routledge. https://doi.org/10.4324/9781003146391-18

Muñoz-Basols, J. y Hernández Muñoz, N. (2019). El español en la era global: agentes y voces de la polifonía panhispánica. Journal of Spanish Language Teaching, 6(2), 79-95. https://doi.org/10.1080/23247797.2020.1752019

Nguyen, D. y Hekman, E. (2022). The news framing of artificial intelligence: A critical exploration of how media discourses make sense of automation. AI & SOCIETY, 39, 437-451. https://doi.org/10.1007/s00146-022-01511-1

Peláez Agudo, D. (2023). El impacto de la revolución de la IA en España y Latinoamérica. OBS Business School.

Portal Administración Electrónica. (2024, 27 de febrero). El Gobierno anuncia la construcción de un modelo de lenguaje de IA entrenado en español y las lenguas cooficiales. https://administracionelectronica.gob.es/pae_Home/pae_Actualidad/pae_Noticias/2024/Febrero/Noticia-2024-02-27

Gobierno-anuncia-modelo-fundacional-lenguaje-IA.html

Presidencia de la Nación. (2020). Plan Nacional de Inteligencia Artificial. Gobierno de Argentina.

Presidencia del Consejo de Ministros. (2021). Estrategia Nacional de Inteligencia Artificial. Documento de Trabajo para la participación de la ciudadanía 2021-2026. Secretaría de Gobierno y Transformación Digital.

Projecte-aina. (2024a, 21 de julio). FLOR-6.3B. Hugging Face. https://huggingface.co/projecte-aina/FLOR-6.3B

Projecte-aina. (2024b, 21 de julio). Ǎguila-7B. Hugging Face. https://huggingface.co/projecte-aina/aguila-7b

Proyecto NEL-Vives. (2024, 21 de julio). How to give your voice. VIVES. https://vives.gplsi.es/instruccions/

Real Academia Española. (2022a, 20 de mayo). El presidente de Microsoft visita la RAE [Nota de prensa]. Real Academia Española. https://www.rae.es/noticia/el-presidente-de-microsoft-visita-la-rae

Real Academia Española. (2022b, 26 de mayo). La RAE y AWS presentan una herramienta basada en inteligencia artificial para conocer el estado del español en Internet [Nota de prensa]. Real Academia Española. https://www.rae.es/noticia/la-rae-y-aws-presentan-una-herramienta-basada-en-inteligencia-artificial-para-conocer-el

Real Academia Española y Asociación de Academias de la Lengua Española. (2004). La nueva política lingüística panhispánica. Real Academia Española.

Roden, B., Lusher, D., Spurling, T. H., Simpson, G. W., Klein, T., Brailly, J. y Hogan, B. (2022). Avoiding GIGO: Learnings from data collection in innovation research. Social Networks, 69, 3–13. https://doi.org/10.1016/j.socnet.2020.04.005

Vaca Serrano, A., García Subies, G., Montoro Zamorano, H., Aldama García, N., Samy, D., Betancur Sánchez, D., Moreno-Sandoval, A., Guerrero Nieto, M. y Barbero Jiménez, Á. (2022). Rigoberta: a state-of-the-art language model for Spanish. ArXiv. https://doi.org/10.48550/arXiv.2205.10233

Villalobos, P., Sevilla, J., Heim, L., Besiroglu, T., Hobbhahn, M. y Ho, A. (2022). Will we run out of data? an analysis of the limits of scaling datasets in machine learning. arXiv. https://doi.org/10.48550/arXiv.2211.04325

VV. AA. (2023). Índice latinoamericano de inteligencia artificial. Centro Nacional de Inteligencia Artificial. CENIA.

Zeballos, R., Ortega, J., Chen, W., Castro, R., Bel. N., Yoshikawa, C., Ventura, R., Aradiel, H. y Melgarejo, N. (2022). Introducing QuBERT: A Large Monolingual Corpus and BERT model for Southern Quechua. En C. Cherry, A. Fan, G. Foster, G. Haffari, S. Khadivi, N. Peng, X. Ren, E. Shareghi y S. Swayamdipta (Eds.), Proceedings of the Third Workshop on Deep Learning for Low-Resource Natural Language Processing (pp. 1-13). Association for Computational Linguistics.

Publicado

2024-12-30

Edição

Seção

Dossier sobre inteligencia artificial, lenguaje y discurso digital

Como Citar

Muñoz-Basols, J., Palomares Marín, M. del M., & Moreno Fernández, F. (2024). O Viés Linguístico Digital (VLD) na Inteligência Artificial: implicações para grandes modelos de linguagem em espanhol. Lengua Y Sociedad, 23(2), 623-647. https://doi.org/10.15381/lengsoc.v23i2.28665