Reconocedor de habla continua independiente del contexto para el español de Argentina

Pedro Univaso, Jorge A. Gurlekian, Diego A. Evin

Resumen


En este trabajo se presentan los resultados de los experimentos llevados a cabo con un sistema de reconocimiento automático de habla continua para el español de Argentina. El reconocedor implementado basado en palabras utilizó unidades independientes del contexto, denominadas en la literatura “monofonos”, como unidades básicas del modelo acústico. Para la creación de dichos modelos se emplearon modelos ocultos de Markov HMM (Hidden Markov Models) de 3 estados de izquierda a derecha del tipo semi-continuo “SC-HMM” asociados a cada uno de los 31 monofonos (30 fonemas + alófonos y un modelo de silencio). La base de datos acústica estuvo conformada por 741 oraciones con 2.837 palabras distintas, que cubren el 97% de las sílabas del español, emitidas en una cámara acústica por dos locutores profesionales. Los valores óptimos de los parámetros fueron seleccionados para maximizar la tasa de reconocimiento y simultáneamente reducir el tiempo de procesamiento. La tasa de reconocimiento promedio obtenida (%Acc), empleando la metodología de “validación cruzada de 10 particiones”, fue del 97.87% con una tasa de tiempo real (%RT) del 34.98%.


Palabras clave


reconocimiento automático de habla, español de Argentina, tasa de tiempo real, modelos ocultos de Markov.

Texto completo:

PDF

Referencias


Casacuberta, F., García, R., Llisterri, J., Nadeu, C., Pardo, J.M., Rubio, A. (1991). Development of Spanish Corpora for Speech Research (ALBAYZIN). In: Workshop on International Cooperation and Standardization of Speech Databases and Speech I/O Assesment Methods, Chiavari, Italy, 26-28 September.

de la Torre, C., Caminero-Gil, F.J., Álvarez, J., Martín del Alámo & C., Hernández-Gómez, L. (1996). Evaluation of the Telefónica I+D Natural Numbers Recognizer over different Dialects of Spanish from Spain and America. 4th International Conference on Spoken Language Processing, Philadelphia, PA, USA, October 3-6, 1996.

Franco, H.E., Gurlekian, J. A. (1987). Context dependent recognition of Spanish Stops, Academy of Sciences of the Estonian S.S.R. Institute of Language and Literature, Vol. 2, pp. 384-387, 1987

Gurlekian, J. A., Franco, H.E. and Santagada, M. (1990). Speaker independent recognition of isolated Spanish digits. Proceedings of the ICSLP´90. Kobe. Japan, Vol. 1, 529-532.

Gurlekian, J. A., Franco, H.E., Santagada; M. y Rosso, E. (1991). Reconocimiento automático de dígitos con desempeño mayor a 99%, con independencia del hablante masculino, Revista Telegráfica Electrónica. 1ra. y 2da. parte, Nro. 924: 93-96 y 925: 172-175 y 187.

Gurlekian, J. A., Rodriguez, H., Colantoni, L. & Torres, H. (2001a). Development of a Prosodic Database for an Argentine Spanish Text to Speech System. Proc. of the IRCS Workshop on Linguistic Databases (B.Bird and Liberman eds.) University of Pennsylvania, Philadelphia, USA, pp. 99-104.

Gurlekian, J. A., Colantoni, L., Torres, H., Rincón, A. Moreno A. y Mariño (2001b). Database for an Automatic Speech Recognition System for Argentine Spanish. Proc. of the IRCS Workshop on Linguistic Databases (B.Bird and Liberman eds.) Univ. of Pennsylvania, Philadelphia, USA,

pp. 92-98.

Gurlekian, J.A., Colantoni, N. & Torres, H. (2001b). El alfabeto fonético SAMPA y el diseño de córpora fonéticamente balanceados. Fonoaudiológica. Editorial: ASALFA. Tomo: 47, Número: 3, pp. 58-69.

Gurlekian, J.A, (1997). El Laboratorio de Audición y Habla del LIS, en Procesos Sensoriales y Cognitivos. Editorial Dunken. Buenos Aires. Guirao M. (ed).

Ragni, A. (2007). Initial Experiments with Estonian Speech Recognition. In Proceedings of 16th Nordic Conference of Computational Linguistics, Tartu, Estonia.

Ravinshakar, M. (1996). Efficient Algorithms for Speech Recognition. Doctoral Thesis, School of Computer Science, Computer Science Division, Carnegie Mellon University, Pittsburgh.

Rosso E., Univaso P. y Franco H. (1987). Reconocimiento Automático de Dígitos, Programación Dinámica. Revista Telegráfica Electrónica.

Tapias, D., Acero, A., Estevez, J. & Torrecilla, J.C. (1994). The VESTEL, Telephone Speech Database. ICSLP-94, Japan, pp. 1811-1814.

Univaso, P., Rosso E., and Franco, H. E. (1986a). Automatic recognition of isolated Spanish CV syllables. Journal of the Acoustical Society of America. Volume 79, Issue S1, pp. S96-S96.

Univaso, P. y Rosso, E. (1986b). Reconocimiento automático de dígitos. Revista Telegráfica Electrónica Nro. 875, pp. 997-1009.

Villarrubia, L., Gómez, L.H., Elvira & J.M., Torrecilla, J.C. (1996). Context-dependent Units for Vocabulary-independent Spanish Speech Recognition. Acoustics, Speech, and Signal Processing, 1996. ICASSP-96. Conference Proceedings, 1996 IEEE International Conference on Volume 1, Issue, 7-10 May 1996, Page(s): 451-454, Vol. 1.

Wiggers, P. (2001). Hidden Markov Models for Automatic Speech Recognition and their Multimodal Applications. Master Thesis, Delft University of Technology, The Netherlands.

Young, S., Evermann, G., Gales, M., Hain, T., Kershaw, D., Liu, X., Moore, G., Odell, J., Ollason, D., Povey, D., Valtech, V. & Wooland, P. (2006). The HTK Book. Cambridge University Press.

Zhan, P., Ries, K., Gavalda, M., Gates, D., Lavie, A., Waibel, A. (1996). JANUS-II: Towards Spontaneous Spanish Speech Recognition. Spoken Language, 1996. ICSLP 96. Proceedings, Fourth International Conference on Volume 4, Issue, 3-6 Oct 1996, Page(s): 2285-2288, Vol. 4.




DOI: http://dx.doi.org/10.26564/19001355.273

Enlaces refback

  • No hay ningún enlace refback.


Copyright (c) 2015 Revista Clepsidra

DOI: https://doi.org/10.26564/issn.1900-1355