Análisis léxico de textos generados por modelos de lenguaje: reflejo de sus modelos de mundo

Autores/as

DOI:

https://doi.org/10.15381/lengsoc.v23i2.28336

Palabras clave:

modelo de mundo, modelo de lenguaje, inteligencia artificial, diversidad léxica, densidad léxica

Resumen

La inteligencia artificial (IA) ha transformado numerosos campos, incluyendo la lingüística. Los Grandes Modelos de Lenguaje (LLM) han revolucionado la interacción con el texto al proporcionar respuestas que imitan el lenguaje humano. Estos modelos no solo generan texto, sino que también reflejan su interpretación del mundo. Sin embargo, la comprensión del mundo de estos modelos es limitada, lo que ha llevado a proponer el desarrollo de los Grandes Modelos del Mundo (LWM), que integran datos textuales, visuales y auditivos para una comprensión más completa. En este artículo, se analiza cómo los LLM articulan respuestas basadas en sus modelos de mundo mediante una perspectiva léxico-estadística. Mediante un diseño cuasiexperimental comparativo, se evaluaron seis LLM diferentes. La metodología se centró en medir la diversidad y densidad léxica de los textos generados por estos modelos. Los resultados mostraron que ChatGPT-4 tiene una alta densidad léxica y una diversidad léxica moderada, mientras que Copilot presenta la mayor diversidad léxica pero con una densidad léxica menor. Este análisis es crucial para entender las capacidades y limitaciones de los LLM, con implicaciones para aplicaciones en diversas áreas. Se presentan los conceptos y la metodología, se discuten los hallazgos y se  concluye con reflexiones sobre futuras investigaciones y aplicaciones prácticas.

 

Biografía del autor/a

  • Gabriela Kotz, Universidad de Concepción, Concepción, Chile

    Es profesora de alemán egresada de la Universidad Nacional de Córdoba, Argentina, es doctora en lingüística por la Universidad de Concepción, Chile y docente del Departamento de Idiomas Extranjeros de la Facultad de Humanidades y Arte de la misma Universidad, donde imparte cursos de alemán para la carrera de Traducción / Interpretación en Idiomas Extranjeros y dicta cursos en el programa de postgrado de lingüística. Trabaja en lingüística aplicada y lexicología, donde se encuentran sus principales líneas de investigación.  Actualmente se desempeña en el cargo de Profesor Asociado y sus intereses investigativos actuales giran en torno al léxico, las emociones y al proceso de enseñanza/aprendizaje en idiomas extranjeros.

  • Pedro Salcedo, Universidad de Concepción, Concepción, Chile

    Es profesor de Matemática y Física y Magister en Ciencias de la Computación por la Universidad de Concepción, además es Doctor en Inteligencia Artificial por la Universidad de Nacional de Educación a Distancia (UNED), España. Es miembro de claustro de los Doctorados en Educación, Psicología y Lingüística, además de integrante del comité académico del Doctorado en Inteligencia Artificial del consorcio Cruch Biobío, Chile. Trabaja en Ingeniería del Conocimiento, IA en educación, didáctica de las matemáticas, lingüística aplicada y lexicología, donde se encuentran sus principales líneas de investigación. Actualmente se desempeña como Profesor Titular en la Universidad de Concepción, Chile y sus intereses investigativos actuales giran en torno a la Computación Afectiva (la IA de las Emociones), integración de las TIC en el aula, competencias TIC y Lingüística Aplicada.

  • Karina Fuentes, Universidad de Concepción, Concepción, Chile

    Es doctora en Lingüística por la Universidad de Concepción. Máster en Periodismo Digital por la Universidad Autónoma de Madrid. Licenciada en Comunicación Social y periodista por la Universidad de Concepción. Se desempeña como académica en el Departamento de Metodología de la Investigación e Informática Educacional de la Facultad de Educación de la Universidad de Concepción. Investigadora en el proyecto Anid, Fondecyt Entrenando la comprensión lectora online mediante una plataforma virtual. Evidencias empíricas desde la neurociencia, 2024-2027.

Referencias

Altmann, E. G., Pierrehumbert, J. B. y Motter, A. E. (2009). Beyond Word Frequency: Bursts, Lulls, and Scaling in the Temporal Distributions of Words. PLoS ONE, 4(11), 1-7. https://doi.org/10.1371/journal.pone.0007678

Asensi, M. (2016). Teoría de los modelos de mundo y teoría de los mundos posibles. Actio Nova: Revista de teoría de la literatura y literatura comparada, (0), 38-55. https://doi.org/10.15366/actionova2016.0.003

Carvajal, Á. (2013). Teorías y modelos: formas de representación de la realidad. Revista Comunicación, 12(1), 33-46.

Cheng, M., Durmus, E. y Jurafsky, D. (2023). Marked Personas: Using Natural Language Prompts to Measure Stereotypes in Language Models. In Proceedings of the 61st Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers) (pp. 1504–1532). Toronto, Canada. Association for Computational Linguistics.

Deutscher, G. (2011). El prisma del lenguaje. Cómo las palabras colorean el mundo. Editorial Ariel.

Goodwin, A. P. y Ahn, S. (2010). A meta-analysis of morphological interventions: effects on literacy achievement of children with literacy difficulties. Annals of dyslexia, 60(2), 183–208. https://doi.org/10.1007/s11881-010-0041-x

Hirschman, M. (2000). Language repair via metalinguistic means. International Journal of Language & Communication Disorders, 35(2), 252–268. https://doi.org/10.1080/136828200247179

Johansson, V. (2008). Lexical diversity and lexical density in speech and writing: a develop-mental perspective. Working Papers in Linguistics, 53, 61-79. https://journals.lub.lu.se/index.php/LWPL/article/view/2273/1848

Joly, F. (1988). La cartografía. Oikos-Tau.

Justice, L. M., Schmitt, M. B., Murphy, K. A., Pratt, A. y Biancone, T. (2014). The 'robustness' of vocabulary intervention in the public schools: targets and techniques employed in speech-language therapy. International journal of language & communication disorders, 49(3), 288–303. https://doi.org/10.1111/1460-6984.12072

Kamhi, A. G. y Koenig, L. A. (1985). Metalinguistic Awareness in Normal and Language-Disordered Children. Language Speech and Hearing Services in Schools, 16, 199-210. https://doi.org/10.1044/0161-1461.1603.199

Kubát, M. y Milička, J. (2013). Vocabulary Richness Measure in Genres. Journal of Quantitative Linguistics, 20(4), 339-349. https://doi.org/10.1080/09296174.2013.830552

Larsen, J. A. y Nippold, M. A. (2007). Morphological analysis in school-age children: dynamic assessment of a word learning strategy. Language, speech, and hearing services in schools, 38(3), 201–212. https://doi.org/10.1044/0161-1461(2007/021)

López Morales, H. (2002). Los índices de ‘Riqueza léxica’ y la enseñanza de lenguas. En Del texto a la lengua: la aplicación de los textos a la enseñanza-aprendizaje del español (pp. 15-28). https://dialnet.unirioja.es/descarga/articulo/5419218.pdf

Matthews, P. (2014). Sapir-Whorf hypothesis. En P. H. Matthews (Hrsg.), The Concise Oxford Dictionary of Linguistics (3.° ed.). Oxford University Press.

Mccarthy, P. y Jarvis, S. (2010). MTLD, vocd-D, and HD-D: a validation study of sophisticated approaches to lexical diversity assessment. Behavior Research Methods, 42, 381-392.

McGregor, K. K., Oleson, J., Bahnsen, A. y Duff, D. (2013). Children with developmental language impairment have vocabulary deficits characterized by limited breadth and depth. International journal of language & communication disorders, 48(3), 307–319. https://doi.org/10.1111/1460-6984.12008

Minaee, S., Mikolov, T., Nikzad, N., Chenaghlu, M., Socher, R., Amatriain, X. y Jianfeng, G. (2024). Large Language Models: A Survey. Arxiv. https://doi.org/10.48550/arXiv.2402.06196

Nippold, M. A. (2014). Language sampling with adolescents: Implications for intervention. (2nd ed.). Plural Publishing.

Nippold, M. A. (2017). Building a literate lexicon in adolescents: Selecting words for language intervention. 14th International Congress for the Study of Child Language (IASCL), University of Lyon, France.

Ozdemir, S. (2023). Quick Start Guide to Large Language Models: Strategies and Best Practices for Using ChatGPT and Other LLMs. Addison-Wesley Professional.

Pape, C. (2010). Sprachliche Relativität und ihre Implikationen für den Englischunterricht [Tesis de licenciatura, Humboldt-University of Berlin]. GRIN Verlag, https://www.grin.com/document/169274

Pérez Parejo, R. (2004). Modelos de mundo y tópicos literarios: la construcción ficcional al servicio de la ideología del poder. Revista De Literatura, 66(131), 49–76. https://doi.org/10.3989/revliteratura.2004.v66.i131.140

Read, J. (2010) Assessing vocabulary. (9. ed). Cambridge University Press.

Riffo, K. F., Osuna, S. H. y Lagos, P. S. (2019). Descripción de la diversidad y densidad léxicas en noticias escritas por estudiantes de periodismo. Revista Brasileira de Linguística Aplicada, 19(3), 499-528. https://doi.org/10.1590/1984-6398201914113

Torres-Bravo, L. (2020). Teoría de los modelos de mundo: lectura literaria y posibilidades didácticas. Enunciación, 25(2), 292-305. https://doi.org/https://doi.org/10.14483/22486798.16634

Vine, A., Fuentes Riffo, K., Neira Martínez, A. y Poza Molina, C. (2021). Lexical richness on written texts by foreign spanish language learners: A contribution to the specific notions of the curricular plan of the Cervantes Institute. Nueva revista del Pacífico, (75), 201-226.

von Humboldt, W. (1991). Escritos sobre el lenguaje. (A. Sánchez Pascual, Trad.). Península.

Wittgenstein, L. (1922). Tractatus Logius-Philosophicus, con una introducción de Bertrand Russell. Trench Trübner.

Descargas

Publicado

2024-12-30

Número

Sección

Dossier sobre inteligencia artificial, lenguaje y discurso digital

Cómo citar

Kotz, G., Salcedo, P., & Fuentes, K. (2024). Análisis léxico de textos generados por modelos de lenguaje: reflejo de sus modelos de mundo. Lengua Y Sociedad, 23(2), 895-910. https://doi.org/10.15381/lengsoc.v23i2.28336