O Viés Linguístico Digital (VLD) na Inteligência Artificial: implicações para grandes modelos de linguagem em espanhol
DOI:
https://doi.org/10.15381/lengsoc.v23i2.28665Palavras-chave:
inteligência artificial gerativa (AIGer), Grandes Modelos de Linguagem (GML), Viés Linguístico Digital (DLB), diversidade linguística, espanholResumo
O advento da inteligência artificial generativa no nível do usuário, especialmente por meio do desenvolvimento de Grandes Modelos de Linguagem (GML), nos leva a refletir sobre a proliferação de vieses na construção, no desenvolvimento, no uso e na representatividade desses modelos baseados em dados linguísticos. Este artigo analisa, em primeiro lugar, as iniciativas desenvolvidas para o espanhol no campo da IA, tanto na América de língua espanhola quanto na Espanha, dando atenção especial aos recursos linguísticos e aos GML. A composição dos principais GML atuais do espanhol é examinada e comparada com outros GML de idiomas peninsulares (catalão, basco, galego e valenciano). Além disso, o termo Viés Linguístico Digital (VLD), que é específico da IA, é apresentado, tanto em nível inter quanto intralinguístico. Por fim, sugere-se que um usuário digitalmente consciente poderá contribuir para atenuar os efeitos do VLD. Para concluir, enfatiza-se a necessidade de uma ação coordenada dos agentes institucionais para preservar a diversidade do patrimônio linguístico de língua espanhola no desenvolvimento de GML.
Referências
Agesic. (2019). Estrategia de Inteligencia Artificial para el Gobierno Digital. Gobierno de Uruguay.
Alonso, R. (2024, 15 de mayo). El gobierno acelera el desarrollo de ChatGPT español y el uso de la Inteligencia Artificial en pymes. ABC. https://www.abc.es/tecnologia/gobierno-destinara-1500-millones-euros-desarrollo-ia-20240514132352-nt.html?ref=https%3A%2F%2Fwww.google.com%2F
Amaratunga, T. (2023). Understanding Large Language Models. Apress.
Arancibia, D., Ávila, C., Caro, M. J., Girardi, J., González, N., Guridi, J. A. y Rivera, A. (2021). Política Nacional de Inteligencia Artificial. Chile IA. Ministerio de Ciencia, Tecnología, Conocimiento e Innovación.
Artetxe, M., Aldabe, I., Agerri, R., Perez-de-Viñaspre, O. y Soroa, A. (2022). Does corpus quality really matter for low-resource languages? arXiv. https://doi.org/10.48550/arXiv.2203.08111
Asociación Española de Terminología. (2024). TERESIA. https://aeter.org/teresia/
Biblioteca Nacional de España. (2024). El Archivo de la Web España. https://www.bne.es/es/colecciones/archivo-web-espanola
Barcelona Supercomputing Center. (2024a, 17 de enero). BSC to develop multilingual models in Aranese through Aina [nota de prensa]. https://www.bsc.es/news/bsc-news/bsc-develop-multilingual-models-aranese-through-aina
Barcelona Supercomputing Center. (2024b, 28 de febrero). El BSC pone en marcha Aina Challenge, la primera convocatoria oficial de proyectos de inteligencia artificial en catalán [nota de prensa]. https://www.bsc.es/es/noticias/noticias-del-bsc/el-bsc-pone-en-marcha-aina-challenge-la-primera-convocatoria-oficial-de-proyectos-de-inteligencia
Campusa. (2024, 31 de enero). HiTZ Zentroa desarrolla el mayor modelo del lenguaje para el euskera: Latxa. Campusa, Noticias de la Universidad del País Vasco. https://www.ehu.eus/es/-/hitz-zentroa-desarrolla-mayor-modelo-lenguaje-euskera-latxa
Cañete, J., Chaperon, G., Fuentes, R., Ho, J., Kang, H. y Pérez, J. (2023). Spanish Pre-trained BERT Model and Evaluation Data. arXiv. https://doi.org/10.48550/arXiv.2308.02976
Cañete, J., Donoso, S., Bravo-Marquez, F., Carvallo, A. y Araujo, V. (2022). ALBETO and DistilBETO: Lightweight Spanish Language Model. arXiv.
Comunidad ELOTL (2020). Corpus paralelo Otomí-español. https://elotl.mx/proyectos/corpus-paralelo-otomi-espanol/
Company Company, C. (2019). Jerarquías dialectales y conflictos entre teoría y práctica. Perspectivas desde la Asociación de Academias de la Lengua Española (ASALE). Journal of Spanish Language Teaching, 6(2), 96-105. https://doi.org/10.1080/23247797.2019.1668179
Dafoe, A. (2018). AI Governance: a Research Agenda. https://www.fhi.ox.ac.uk/wp-content/uploads/GovAI-Agenda.pdf
De-Dios-Flores, I., Paniagua Suárez, S., Carbajal Pérez, C., Bardanca Outeiriño, D., Garcia, M. y Gamallo, P. (2024). CorpusNÓS: A massive Galician corpus for training large language models. arXiv. https://iv.org/html/2406.13893v1/arx
De la Rosa, J., Ponferrada, E. G., Villegas, P., González, P., Romero, M. y Grandury, M. (2022). BERTIN: Efficient Pre-Training of a Spanish Language Model using Perplexity Sampling. Procesamiento del Lenguaje Natural, 68, 13-23. http://journal.sepln.org/sepln/ojs/ojs/index.php/pln/article/view/6403
Del Rey Quesada, S. (2021). Lo marcado y lo no marcado en la cadena de variedades: apuntes para una nueva propuesta. En T. Gruber, K. Grübl y T. Scharinger (Eds), Was bleibt von kommunikativer Nähe und Distanz? Mediale und konzeptionelle Aspekte sprachlicher Variation (pp. 205-238). Narr.
El Debate. (2024, 30 de mayo). Santiago Muñoz Machado: “El peligro está en que se formen dialectos digitales que laminen nuestro idioma”. El Debate. https://www.eldebate.com/sociedad/20240530/santiago-munoz-machado-peligro-esta-formen-dialectos-digitales-laminen-nuestro-idioma_201254.html
Etxaniz, J., Sainz, O., Perez, N., Aldabe, I., Rigau, G., Aguirre, E., Ormazabal, A., Artetxe, M. y Soroa, A., (2024). Latxa: An Open Language Model and Evaluation Suite for Basque. arXiv. https://doi.org/10.48550/arXiv.2403.20266
Fundación Comillas. (2023). Corpus del español de los negocios (CORPEN-FUNDACIÓN COMILLAS). https://fundacioncomillas.es/wp-content/uploads/2023/03/proyecto-corpen-fundacion-comillas.pdf
Gallardo, C. (2024, 28 de febrero). Spain to develop open-source LLM trained in Spanish, regional languages. Sifted. https://sifted.eu/articles/spain-large-language-model-generative-ai
Gamallo, P., Rodríguez, P., de-Dios-Flores, I., Sotelo, S., Paniagua, S., Bardanca, D., Pichel, J. R. y Garcia, M. (2024). Open Generative Large Language Models for Galician. ArXiv. https://arxiv.org/pdf/2406.13893v1
García Montero, L. (2022). Reflexiones precavidas sobre la inteligencia artificial. En C. Pastor Villalba (Dir.), El español en el mundo 2022. Anuario del Instituto Cervantes (pp. 135-144). Instituto Cervantes.
Gobierno de España. (2022, 26 de junio). El gobierno concede una subvención de 5 millones de euros a la RAE para ejecutar el proyecto ‘Lengua española e Inteligencia Artificial’ (LEIA). https://planderecuperacion.gob.es/noticias/el-gobierno-concede-una-subvencion-de-5-millones-de-euros-a-la-rae-para-ejecutar-el-proyecto-leia
Gobierno de España (2023, 15 de diciembre). Conoce “TeresIA” para la traducción de terminología en español mediante Inteligencia Artificial. https://planderecuperacion.gob.es/noticias/conoce-proyecto-teresia-traduccion-terminologia-espanol-inteligencia-artificial-IA-prtr
Gobierno de España (2024). Estrategia de Inteligencia Artificial 2024. https://portal.mineco.gob.es/es-es/digitalizacionIA/Documents/Estrategia_IA_2024.pdf
Gobierno Vasco. (2021). Plan de Acción de Las Tecnologías de La Lengua 2021-2024. Departamento de Cultura y Política Lingüística.
Gómez-Pérez, A. (2023). Inteligencia artificial y lengua española [Discurso de ingreso]. Real Academia Española.
Gómez-Pérez, A. (2024). Ingeniería ontológica [Discurso de ingreso]. Real Academia de Ingeniería.
Grandury, M. [@SomosPLN]. (2024, 13 de marzo). Diversidad lingüística e IA, cómo desarrollar LLMs inclusivos [Vídeo]. Youtube. https://www.youtube.com/watch?v=QCNPVy3QWFs
Gutiérrez-Fandiño, A., Armengol-Estapé, J., Pàmies, M., Llop-Palao, J., Silveira-Ocampo, J., Carrino, C. P., Gonzalez-Agirre, A., Armentano-Oller, C. , Rodríguez-Penagos y Villegas, M. (2022). Maria: Spanish language models. ArXiv. https://doi.org/10.48550/arXiv.2107.07253
Gutiérrez-Vasques, X. [@SomosPLN]. (2022, 30 de marzo). Consideraciones de NLP para lenguas minorizadas. El caso de México. Hackathon de PLN en español. [Vídeo]. Youtube. https://www.youtube.com/live/aNR7UM-E6vA?si=H1LnC7F6jqFlA_el
Helm, P., Bella, G., Koch, G. y Giunchiglia, F. (2024). Diversity and language technology: how language modeling bias causes epistemic injustice. Ethics Inf Technol, 26, 1-8. https://doi.org/10.1007/s10676-023-09742-6
Instituto Cervantes y Ministerio de Economía y Transformación Digital (2023). Estado actual de los corpus en español, lenguas cooficiales y variantes del español. Instituto Cervantes y Ministerio de Economía y Transformación Digital.
Impulso de las Lenguas en la Inteligencia Artificial. (2024). Sobre Ilenia. https://proyectoilenia.es/sobre-ilenia/
Kabatek, J. (2011). Algunos apuntes acerca de la cuestión de la “hibridez” y de la “dignidad” de las lenguas iberorrománicas. En Y. Congosto y E. Méndez (Coords.), Variación lingüística y contacto de lenguas en el mundo hispánico: in memoriam Manuel Alvar (pp. 271-289). Iberoamericana.
Kew, T., Schottmann, F. y Sennrich, R. (2023). Turning English-centric LLMs Into Polyglots: How much Multilinguality is needed? ArXiv. https://doi.org/10.48550/arXiv.2312.12683
Lagunes A., Martínez Y., Cárdenas C., De la Peña S., Mancilla D., Xilotl R., Sánchez O., Moguel A. y Cárdenas J. (2024). Propuesta de Agenda Nacional de la Inteligencia Artificial para México (2024 - 2030). Alianza Nacional de Inteligencia Artificial (ANIA).
Liu, Y., Cao, J., Liu, C., Ding, K. y Jin, L. (2024). Datasets for Large Language Models: A comprehensive Survey. arXiv. https://arxiv.org/pdf/2402.18041
Marres, N. (2017). Digital sociology: The reinvention of social research. Polity Press.
Melero, M., Peñarrubia, P., Cabestany, D., Figueras, B. C., Rodríguez, M. y Villegas, M. (2022). D1.32 Report on the Spanish Language. European Language Equality.
MinCiencia. (2024). Política Nacional de Inteligencia Artificial. Gobierno de Chile.
Ministerio de Ciencia, Tecnología e Innovación. (2024). Hoja de ruta para el desarrollo y aplicación de la Inteligencia Artificial en Colombia. Dirección de Desarrollo Tecnológico e Innovación.
Moreno Fernández, F. (2000). Qué español enseñar. Arco/Libros.
Moreno Fernández, F. (2016). La búsqueda de un 'español global’ [Ponencia]. VII Congreso Internacional de la Lengua Española. Instituto Cervantes, Real Academia Española y Asociación de Academias de la Lengua Española. https://congresosdelalengua.es/puerto-rico/paneles-ponencias/espanol-mundo/moreno-fancisco.htm
Moreno Fernández, F. (2019). El español en movimiento. En F. Moreno Fernández (Coord.), Archiletras Científica 2. El español, lengua migratoria (pp. 20-25). Prensa y Servicios de la Lengua SLU.
Moreno Fernández, F. (2022). La variación geográfica y social en los corpus lingüísticos. En G. Parodi, P. Cantos-Gómez y Ch. Howe (Eds.), Lingüística de corpus en español. The Routledge Handbook of Spanish Corpus Linguistics (pp. 296-309). Routledge.
Moreno Fernández, F. y Cestero Mancera, A. M. (2020). El proyecto PRESEEA: desarrollos analíticos. Verba: Anuario Galego de Filoloxía, 80, 119-138. https://dx.doi.org/10.15304/9788418445316
Moreno Sandoval, A. (2024). El español artificial. El español en el mundo. Anuario del Instituto Cervantes. Instituto Cervantes.
Mozilla. (2024). Common Voice datasets. https://commonvoice.mozilla.org/en/datasets
Muñoz-Basols, J., Craig, N., Lafford, B. A. y Godev, C. (2023). Potentialities of Applied Translation for Language Learning in the Era of Artificial Intelligence. Hispania, 106(2), 171–194. https://doi.org/10.1353/hpn.2023.a899427
Muñoz-Basols, J. y Fuertes Gutiérrez, M. (2024). Oportunidades de la Inteligencia Artificial (IA) en la enseñanza y el aprendizaje de lenguas. En J. Muñoz-Basols, M. Fuertes Gutiérrez y L. Cerezo (Eds.), La enseñanza del español mediada por tecnología: de la justicia social a la Inteligencia Artificial (IA) (pp. 343-364). Routledge. https://doi.org/10.4324/9781003146391-18
Muñoz-Basols, J. y Hernández Muñoz, N. (2019). El español en la era global: agentes y voces de la polifonía panhispánica. Journal of Spanish Language Teaching, 6(2), 79-95. https://doi.org/10.1080/23247797.2020.1752019
Nguyen, D. y Hekman, E. (2022). The news framing of artificial intelligence: A critical exploration of how media discourses make sense of automation. AI & SOCIETY, 39, 437-451. https://doi.org/10.1007/s00146-022-01511-1
Peláez Agudo, D. (2023). El impacto de la revolución de la IA en España y Latinoamérica. OBS Business School.
Portal Administración Electrónica. (2024, 27 de febrero). El Gobierno anuncia la construcción de un modelo de lenguaje de IA entrenado en español y las lenguas cooficiales. https://administracionelectronica.gob.es/pae_Home/pae_Actualidad/pae_Noticias/2024/Febrero/Noticia-2024-02-27
Gobierno-anuncia-modelo-fundacional-lenguaje-IA.html
Presidencia de la Nación. (2020). Plan Nacional de Inteligencia Artificial. Gobierno de Argentina.
Presidencia del Consejo de Ministros. (2021). Estrategia Nacional de Inteligencia Artificial. Documento de Trabajo para la participación de la ciudadanía 2021-2026. Secretaría de Gobierno y Transformación Digital.
Projecte-aina. (2024a, 21 de julio). FLOR-6.3B. Hugging Face. https://huggingface.co/projecte-aina/FLOR-6.3B
Projecte-aina. (2024b, 21 de julio). Ǎguila-7B. Hugging Face. https://huggingface.co/projecte-aina/aguila-7b
Proyecto NEL-Vives. (2024, 21 de julio). How to give your voice. VIVES. https://vives.gplsi.es/instruccions/
Real Academia Española. (2022a, 20 de mayo). El presidente de Microsoft visita la RAE [Nota de prensa]. Real Academia Española. https://www.rae.es/noticia/el-presidente-de-microsoft-visita-la-rae
Real Academia Española. (2022b, 26 de mayo). La RAE y AWS presentan una herramienta basada en inteligencia artificial para conocer el estado del español en Internet [Nota de prensa]. Real Academia Española. https://www.rae.es/noticia/la-rae-y-aws-presentan-una-herramienta-basada-en-inteligencia-artificial-para-conocer-el
Real Academia Española y Asociación de Academias de la Lengua Española. (2004). La nueva política lingüística panhispánica. Real Academia Española.
Roden, B., Lusher, D., Spurling, T. H., Simpson, G. W., Klein, T., Brailly, J. y Hogan, B. (2022). Avoiding GIGO: Learnings from data collection in innovation research. Social Networks, 69, 3–13. https://doi.org/10.1016/j.socnet.2020.04.005
Vaca Serrano, A., García Subies, G., Montoro Zamorano, H., Aldama García, N., Samy, D., Betancur Sánchez, D., Moreno-Sandoval, A., Guerrero Nieto, M. y Barbero Jiménez, Á. (2022). Rigoberta: a state-of-the-art language model for Spanish. ArXiv. https://doi.org/10.48550/arXiv.2205.10233
Villalobos, P., Sevilla, J., Heim, L., Besiroglu, T., Hobbhahn, M. y Ho, A. (2022). Will we run out of data? an analysis of the limits of scaling datasets in machine learning. arXiv. https://doi.org/10.48550/arXiv.2211.04325
VV. AA. (2023). Índice latinoamericano de inteligencia artificial. Centro Nacional de Inteligencia Artificial. CENIA.
Zeballos, R., Ortega, J., Chen, W., Castro, R., Bel. N., Yoshikawa, C., Ventura, R., Aradiel, H. y Melgarejo, N. (2022). Introducing QuBERT: A Large Monolingual Corpus and BERT model for Southern Quechua. En C. Cherry, A. Fan, G. Foster, G. Haffari, S. Khadivi, N. Peng, X. Ren, E. Shareghi y S. Swayamdipta (Eds.), Proceedings of the Third Workshop on Deep Learning for Low-Resource Natural Language Processing (pp. 1-13). Association for Computational Linguistics.
Downloads
Publicado
Edição
Seção
Licença
Copyright (c) 2024 Javier Muñoz-Basols, María del Mar Palomares Marín, Francisco Moreno Fernández

Este trabalho está licenciado sob uma licença Creative Commons Attribution 4.0 International License.
LOS AUTORES RETIENEN SUS DERECHOS:
a. Los autores retienen sus derechos de marca y patente, y también sobre cualquier proceso o procedimiento descrito en el artículo.
b. Los autores pueden presentar a la revista Lengua y Sociedad, trabajos difundidos como pre-print en repositorios. Esto debe hacerse conocer en la carta de presentacion del trabajo.
c. Los autores retienen el derecho de compartir, copiar, distribuir, ejecutar y comunicar públicamente el artículo publicado en la revista Lengua y Sociedad (por ejemplo, colocarlo en un repositorio institucional o publicarlo en un libro), con un reconocimiento de su publicación inicial en la revista Lengua y Sociedad.
d. Los autores retienen el derecho a hacer una posterior publicación de su trabajo, de utilizar el artículo o cualquier parte de aquel (por ejemplo: una compilación de sus trabajos, notas para conferencias, tesis, o para un libro), siempre que indiquen su publicación inicial en la revista Lengua y Sociedad (autores del trabajo, revista, volumen, número y fecha).