Integración de embeddings de nueva generación y recursos lingüísticos actuales para identificar palabras complejas en español con machine learning
DOI:
https://doi.org/10.15381/rpcs.v6i2.29211Palabras clave:
Identificación de palabras complejas, Embeddings, Simplificación Léxica, EspañolResumen
La complejidad de las palabras puede suponer una limitación para la accesibilidad de la información, lo que podría afectar a millones de personas hispanohablantes. El objetivo de este estudio es desarrollar un modelo de machine learning para la tarea binaria de identificación de palabras complejas en español, usando embeddings de nueva generación, recursos lingüísticos actuales y propiedades léxicas. Para ello se empleó el conjunto de datos en español de la tarea compartida CWI Shared Task 2018, obteniendo embeddings generados por el modelo text-embedding-3-large y frecuencias de palabras extraídas de recursos como el Corpus del Español del Siglo XXI, el Corpus de Referencia del Español Actual, el Spanish Billion Word Corpus and Embeddings y Wordfreq. Para seleccionar características y encontrar su mejor combinación se usó una validación cruzada de 5 pliegues utilizando XGBClassifier. Una vez comparados varios algoritmos de machine learning, el modelo final, basado en LGBMClassifier, obtuvo el macro F1 de 0.7993, logrando superar al mejor equipo de dicha competencia, a estudios más recientes que utilizaron redes neuronales y a algunos modelos de lenguaje grandes. Esto muestra el potencial de estos recursos que constantemente están actualizándose y que pueden contribuir a mejorar la precisión de esta tarea.
Descargas
Publicado
Número
Sección
Licencia
Derechos de autor 2024 Luis Iván Mera Dávila

Esta obra está bajo una licencia internacional Creative Commons Atribución 4.0.
LOS AUTORES RETIENEN SUS DERECHOS:
a. Los autores retienen sus derechos de marca y patente, y también sobre cualquier proceso o procedimiento descrito en el artículo.
b. Los autores retienen el derecho de compartir, copiar, distribuir, ejecutar y comunicar públicamente el artículo publicado en la Revista Peruana de Computación y Sistemas (por ejemplo, colocarlo en un repositorio institucional o publicarlo en un libro), con un reconocimiento de su publicación inicial en la Revista Peruana de Computación y Sistemas.
c. Los autores retienen el derecho a hacer una posterior publicación de su trabajo, de utilizar el artículo o cualquier parte de aquel (por ejemplo: una compilación de sus trabajos, notas para conferencias, tesis, o para un libro), siempre que indiquen la fuente de publicación (autores del trabajo, revista, volumen, número y fecha).