Integración de embeddings de nueva generación y recursos lingüísticos actuales para identificar palabras complejas en español con machine learning

Autores/as

DOI:

https://doi.org/10.15381/rpcs.v6i2.29211

Palabras clave:

Identificación de palabras complejas, Embeddings, Simplificación Léxica, Español

Resumen

La complejidad de las palabras puede suponer una limitación para la accesibilidad de la información, lo que podría afectar a millones de personas hispanohablantes. El objetivo de este estudio es desarrollar un modelo de machine learning para la tarea binaria de identificación de palabras complejas en español, usando embeddings de nueva generación, recursos lingüísticos actuales y propiedades léxicas. Para ello se empleó el conjunto de datos en español de la tarea compartida CWI Shared Task 2018, obteniendo embeddings generados por el modelo text-embedding-3-large y  frecuencias de palabras extraídas de recursos como el Corpus del Español del Siglo XXI, el Corpus de Referencia del Español Actual, el Spanish Billion Word Corpus and Embeddings y Wordfreq. Para seleccionar características y encontrar su mejor combinación se usó una validación cruzada de 5 pliegues utilizando XGBClassifier. Una vez comparados varios algoritmos de machine learning, el modelo final, basado en LGBMClassifier, obtuvo el macro F1 de 0.7993, logrando superar al mejor equipo de dicha competencia, a estudios más recientes que utilizaron redes neuronales y a algunos modelos de lenguaje grandes. Esto muestra el potencial de estos recursos que constantemente están actualizándose y que pueden contribuir a mejorar la precisión de esta tarea.

Descargas

Publicado

2024-12-30

Número

Sección

Artículo de contribución

Cómo citar

Mera Dávila, L. I. (2024). Integración de embeddings de nueva generación y recursos lingüísticos actuales para identificar palabras complejas en español con machine learning. Revista Peruana De computación Y Sistemas, 6(2), 55-64. https://doi.org/10.15381/rpcs.v6i2.29211