Using phonetic transcription to get artificial intelligence avatars to pronounce speech in Quechua: the Illariy case
DOI:
https://doi.org/10.15381/lengsoc.v23i2.28422Keywords:
phonetic writing, Quechua, avatar, artificial intelligence, IllariyAbstract
Artificial Intelligence (AI) has has been in the news this year. In its fifth season, the news program Letras TV Willakun of the Faculty of Letters and Human Sciences of the Universidad Nacional Mayor de San Marcos is hosted by Illariy (a Quechua word meaning "Dawn"), an avatar generated by Artificial Intelligence, the only one of its kind that speaks a native language. This fact leads us to pose the question : How does phonetic transcription influence the ability of Artificial Intelligence to generate coherent speech in the Quechua language? The aim of this research is to describe the workflow focusing on how phonetic transcription can enable Artificial Intelligence to articulate a speech in Quechua. The research methodology has a qualitative approach, based on the observation and analysis of the workflow to generate avatars to deliver a speech in Quechua. Among the results we can observe the existence of a differentiated pronunciation between Spanish and Quechua, limitations in the articulation of some consonants of the Quechua language that are irreproducible in techno-phonological contexts, as well as the use of pauses and commas for the production of a Quechua orality in the D-ID Software.
References
Agudelo, C. (2020). La sociedad de los avatares: Videojuegos, representación y discriminación [Tesis de maestría, Pontificia Universidad Javeriana]. https://doi.org/10.11144/Javeriana.10554.13464
Alba, O. (2014). Manual de fonética Hispánica (V Edición). Editorial Plaza Mayor. https://scholarsarchive.byu.edu/cgi/viewcontent.cgi?article=1008&context=books
Andreani, H. (2018, 6 de diciembre). Para qué un alfabeto quichua (en quichua). Trazos Universitarios. http://revistatrazos.ucse.edu.ar/index.php/2018/12/06/alfabeto-quichua-quichua/
Assael, Y., Shillingford, B., Whiteson, S., y de Freitas, N. (2016). LipNet: End-to-End Sentence-level Lipreading. arXiv. http://arxiv.org/abs/1611.01599
Bagudanch, A. (2013). La transcripción fonética en estudios dialectales: Propuestas en el caso del yeísmo. Revista de Filología Española, 93(1), 165-192.. https://doi.org/10.3989/rfe.2013.06
Barroso, N., Lopez-de Ipina, K. y Calvo, P. M. (2015). An automatic and adaptive phonetic transcriber for the Basque language. En 2015 4th International Work Conference on Bioinspired Intelligence (IWOBI) (pp. 163-168). San Sebastián, España.
Benito, Z. (2023). Aproximación a la nueva revolución tecnológica y creativa: Las inteligencias artificiales generativas [Tesis de licenciatura, Universitat Jaume I]. https://repositori.uji.es/xmlui/handle/10234/203214
Bruno-Seminario, Á., Córdova-Chuquihuanga, A., y Santos-Arriola, J. (2020). Las lenguas originarias del Perú. Un análisis de su estado desde la multiculturalidad. Pro Hominum, 2(3), 92-104.
Bruña, M. (2000). El primer diccionario francés-español con transcripción fonética (Cormon, 1800). En La philologie française à la croisée de l’an 2000: Panorama linguistique et littéraire (Vol. 2, pp. 165-178).
Ccaccachahua, B. (2022). Préstamos léxicos en el campo de las tecnologías modernas del castellano en el quechua chanca del anexo de Puncuhuacca. Lengua y Sociedad, 21(2), 449-473. https://doi.org/10.15381/lengsoc.v21i2.22799
Carbajal, V., García, F., Huamancayo, E., Mori, M., Rodríguez, M. y Verástegui, N. (2018). Lenguas originarias del Perú. Ministerio de Educación. https://centroderecursos.cultura.pe/sites/default/files/rb/pdf/Lenguas%20Originarias%20del%20Peru%20%282018%29_7_MB.pdf
Castro, S. (2008). La escritura fonémica del quechua ayacuchano [Tesis de maestría, Facultad Latinoamericana de Ciencias Sociales]. https://repositoriointerculturalidad.ec/jspui/bitstream/123456789/3367/2/TFLACSO-2008SMC.pdf
Cavero, M. (2012). El quechua Ayacucho-Chanka en proceso de extinción: Un caso (provincia de Huamanga, Ayacucho) [Tesis de maestría, Universidad Nacional Mayor de San Marcos]. https://cybertesis.unmsm.edu.pe/bitstream/handle/20.500.12672/14811/Cavero_am-Resumen.pdf?sequence=1&isAllowed=y
Charles, J., Magee, D., y Hogg, D. (2016). Virtual immortality: Reanimating characters from TV shows. En G. Hua y H. Jégou (Eds.), Computer Vision – ECCV 2016 Workshops (pp. 879–886). Springer International Publishing.
Coloma, G. (2012). Caracterización fonética de las variedades regionales del español y propuesta de transcripción simplificada. Revista de Filología Románica, 28(0), 11-27. https://doi.org/10.5209/rev_RFRM.2011.v28.37217
Escobar, J. (2021). La Inteligencia Artificial y la Enseñanza de lenguas: Una aproximación al tema. Decires, 21(25), 29-44. https://doi.org/10.22201/cepe.14059134e.2021.21.25.3
Fernández de Molina Ortés, E. (2018). La transcripción fonética en Twitter: Tradición y modernidad en la educación. En REDINE (Ed.), Innovative strategies for Higher Education in Spain (pp. 141-150). Adaya Press. https://doi.org/10.58909/ad18757372
Fraga, E. A. (2023, febrero 13). Gil Perry: «Los avatares sintéticos facilitarán experiencias digitales más personales y humanas con los clientes». ConverCom. https://convercom.info/comunidades/disrupcion/gil-perry-los-avatares-sinteticos-facilitaran-experiencias-digitales-mas-personales-humanas-los-clientes/
Garcia, G. y Mere, M.(2020). Las lenguas indígenas u originarias del Perú en el internet. LínguaTec, 5(1), 109-136. https://doi.org/10.35819/linguatec.v5.n1.4112
Ghazizadeh, E. y Zhu, P. (2021). A systematic literature review of natural language processing: Current state, challenges and risks. En K. Arai, S. Kapoor y R. Bhatia (Eds.), Proceedings of the Future Technologies Conference (FTC) 2020, Volume 1. FTC 2020. Advances in Intelligent Systems and Computing (Vol. 1288). Springer, Cham. https://doi.org/10.1007/978-3-030-63128-4_49
Guerrero, A. (2007). ¿Qué es la pronunciación? Revista Electrónica de Didáctica, 9, 1-16.
Ibañez, M. (2023, abril 11). El algoritmo es machista y racista | La inteligencia artificial también discrimina—XL Semanal [ABC]. XLSemanal. https://www.abc.es/xlsemanal/ciencia/inteligencia-artificial-discriminacion-tecnologia-chat-gpt-dalle.html
Llisterri, J. (2023). La descripción fonética y fonológica del español: Los procesos fonológicos. Joaquim Llisterri.cat/. https://joaquimllisterri.cat/phonetics/fon_esp/procesos_fonologicos_espanol_ejercicio.html
Majerhua, S. (2008). La escritura fonémica del quechua ayacuchano [Tesis de maestría, Facultad Latinoamericana de Ciencias Sociales]. https://repositorio.flacsoandes.edu.ec/bitstream/10469/804/3/TFLACSO-2008SMC.pdf
Mariño, S. y Primorac, C.(2016). Propuesta metodológica para desarrollo de modelos de redes neuronales artificiales supervisadas. IJERI: International Journal of Educational Research and Innovation, 6, 231-245. https://repositorio.unne.edu.ar/bitstream/handle/123456789/33803/RIUNNE_FACENA_AR_Mari%c3%b1o-Primorac.pdf?sequence=1&isAllowed=y
Ministerio de Cultura. (s. f.). Lista de lenguas indígenas u originarias | BDPI. Base de Datos de Pueblos Indígenas u Originarios BDPI del Ministerio de Cultura. Recuperado 7 de julio de 2023, de https://bdpi.cultura.gob.pe/lenguas
Morie, J., Chance, E., Haynes, K., y Rajpurohit, D. (2012). Embodied conversational agent avatars in virtual worlds: Making today's immersive environments more responsive to participants. In P. Hingston (Ed.), Believable bots (pp. 99-118). Springer.
Ocaña-Fernández, Y., Valenzuela-Fernández, L. A., y Garro-Aburto, L. L. (2019). Inteligencia artificial y sus implicaciones en la educación superior. Propósitos y Representaciones, 7(2), 536-568. https://doi.org/10.20511/pyr2019.v7n2.274
Orta, M, Santos, R. y Cardozo, C. (2018). Creación colaborativa de recursos educativos abiertos con Voicethread y Genial.Ly para la práctica de la transcripción fonética a partir del dictado en la Universidad. Tercer Congreso de la Asociación Argentina de Humanidades Digitales. La Cultura de los Datos. https://www.aacademica.org/aahd2018/11
Perea, J. (2023). Las primeras transcripciones de la lengua española en Le Maître Phonétique (1888-1901), Loquens, 9(1-2), e092. Loquens, 9, e092.
Pérez Orozco, B. (2018). La inteligencia artificial y sus aplicaciones (M. E. Rentería Rodríguez, Responsable). INCyTU. https://www.foroconsultivo.org.mx/INCyTU/documentos/Completa/INCYTU_18-012.pdf
Pérez, E., Fernández, C. y Gonzalez García, C. (2023). El avatar como recurso tecnológico para promover una educación innovadora e inclusiva. Revista Tecnología, Ciencia y Educación, 7-32. https://doi.org/10.51302/tce.2023.3397
Polyákova, T., y Bonafonte, A. (2008). Transcripción fonética en un entorno plurilingüe. Proceedings of V Jornadas en Tecnología del Habla, 207-210.
RAE. (s. f.). Avatar | Diccionario de la lengua española. Edición del Tricentenario. https://dle.rae.es/avatar
Restrepo, S. (2019). Google Traslate vs. Traducción Humana: Percepciones de ocho traductores en torno al papel de este traductor automático en su labor [Tesis de licenciatura, Pontificia Universidad Javeriana]. https://repository.javeriana.edu.co/bitstream/handle/10554/43243/Trabajo%20de%20Grado%20SANTIAGO%20RESTREPO%20KLINGE.pdf?sequence=3&isAllowed=y
Ríos, A. (2002). Un alfabeto fonético del español para usos informáticos. Estudios de lingüística del español, 16. https://raco.cat/index.php/Elies/article/view/195497
Rivera, M. (2004). ¿Se puede enseñar fonética con un diccionario? ASELE, Actas XV, 733-740. https://idus.us.es/bitstream/handle/11441/42649/15_0731%20Rivera%20Gonz%C3%A1lez.pdf?sequence=1
Romanenko, A. y Mendelev, V. (2016). Speaker-Dependent Bottleneck Features for Egyptian Arabic Speech Recognition. En A. Ronzhin, R. Potapova y G. Németh (Eds.), Speech and Computer. SPECOM 2016. Lecture Notes in Computer Science (vol. 9811). Springer. https://doi.org/10.1007/978-3-319-43958-7_75
Schaufler, M. L. (2021). El mapa de la discriminación. Reflexiones sobre la insistencia del sexismo y el racismo en la construcción de encuestas. Avatares de la Comunicación y la Cultura, 22. https://publicaciones.sociales.uba.ar/index.php/avatares/article/view/7131
Seong, J., Lee, W. y Lee, S. (2021). Multilingual speech synthesis for voice cloning. En 2021 IEEE International Conference on Big Data and Smart Computing (BigComp) (pp. 313-316). IEEE. https://doi.org/10.1109/BigComp51126.2021.00067
Tebbi, H. y Hamadouche, M. (2022). Multi-agent based Arabic speech synthesis. Int J Speech Technol. https://doi.org/10.1007/s10772-022-09975-8
Torero, A. (2007). El quechua y la historia social andina. Fondo Editorial del Pedagógico de San Marcos.
Zhao, G., Sonsaat, S., Silpachai, A., Lucic, I., Chukharev-Hudilainen, E., Levis, J. y Gutierrez-Osuna, R. (2018). L2-ARCTIC: A Non-native English Speech Corpus. Proc. Interspeech, 2783-2787.
Unesco. (2010, febrero 23). SPDA Actualidad Ambiental. https://www.actualidadambiental.pe/unesco-29-lenguas-originarias-peruanas-permanecen-en-peligro-de-extincion/
Valqui, J., Ziemendorff, M., Ziemendorff, S. y Oisel, G. (2023). Consideraciones histórico-lingüísticas acerca del topónimo Kuélap. Indiana, 40(1), 131-154. https://doi.org/10.18441/ind.v40i1.131-154
Downloads
Published
Issue
Section
License
Copyright (c) 2024 Óscar Huamán-Águila, Carlos Fernandez-Garcia y Carlos Gonzales-García

This work is licensed under a Creative Commons Attribution 4.0 International License.
AUTHORS RETAIN THEIR RIGHTS
a. Authors retain their trade mark rights and patent, and also on any process or procedure described in the article.
b. Authors can submit to the journal Lengua y Sociedad, papers disseminated as pre-print in repositories. This should be made known in the cover letter.
c. Authors retain their right to share, copy, distribute, perform and publicly communicate their article (eg, to place their article in an institutional repository or publish it in a book), with an acknowledgment of its initial publication in the journal Lengua y Sociedad.
d. Authors retain theirs right to make a subsequent publication of their work, to use the article or any part thereof (eg a compilation of his papers, lecture notes, thesis, or a book), always indicating its initial publication in the journal Lengua y Sociedad (the originator of the work, journal, volume, number and date).