STT: Un sistema de apoyo a la transcripción de audiencias fiscales usando Vosk

Autores/as

  • Diego Vera Universidad Nacional Mayor de San Marcos. Lima, Perú
  • Ángel Espezua Ministerio Público, Fiscalía de la Nacion, Lima, Perú

DOI:

https://doi.org/10.15381/risi.v14i1.21864

Palabras clave:

Voz a texto, reconocimiento de voz, aplicación de software, Ley gubernamental, Fiscalía

Resumen

Las audiencias son de suma importancia dentro del sistema penal peruano y la información que es tratada aquí es importante para la resolución de un caso. Muchas veces se requiere de esta información a corto plazo, pero la transcripción manual de estas audiencias puede llevar bastante tiempo debido a que estas son de muchas horas de duración. En la actualidad existen modelos de transcripción pre entrenados que pueden realizar este trabajo en unos minutos, con esto ahorrar mucho tiempo y tener la información requerida casi al instante, pero no están implementados en un sistema de libre uso ni están disponibles en español. Se implementó un sistema transcriptor de audio a texto mediante metodología SCRUM donde semanalmente se desarrolló y probó funcionalidades nuevas, los modelos de transcripción que se implementó son Vosk, Speech to text de Google y DeepSpeech. En los resultados experimentales, este último tuvo resultados negativos en transcripción, mientras que los mejores resultados los tuvo Speech to text de Google, pero el más rápido de estos fue Vosk. Finalmente se escogió Vosk como modelo transcriptor del sistema debido a su rapidez y eficiencia en la transcripción.

Descargas

Los datos de descarga aún no están disponibles.

Descargas

Publicado

2021-12-28

Número

Sección

Artículos

Cómo citar

[1]
“STT: Un sistema de apoyo a la transcripción de audiencias fiscales usando Vosk”, Rev.Investig.sist.inform., vol. 14, no. 1, pp. 83–88, Dec. 2021, doi: 10.15381/risi.v14i1.21864.