ReconVox

ReconVox es nuestro producto de altas prestaciones de reconocimiento del habla. Gracias a su capacidad de reconocer tanto órdenes aisladas como habla continua para cualquier locutor sin necesidad de entrenamiento previo, permite desde controlar dispositivos electrónicos mediante la voz hasta acceder a servicios automáticos manejados mediante sentencias complejas a través de cualquier teléfono.

A este tipo de tecnología se le denomina reconocimiento del habla continua independiente del locutor y una aplicación o servicio que la incorpore será capaz de reconocer frases elaboradas cercanas al lenguaje natural con grandes vocabularios, todo ello de manera inmediata para cualquier locutor.

Al igual que BioVox, ReconVox no es una aplicación con una interfaz de usuario cerrada, si no que consiste en una plataforma de desarrollo que exporta sus funcionalidades a través de un potente API (Application Programming Interface), diseñado para ser integrado fácilmente en cualquier aplicación o sistema hardware.

ReconVox es un desarrollo propio de DTec.

Más información

ReconVox puede funcionar en modo interactivo procesando las locuciones según se van produciendo o bien en modo de procesamiento masivo, analizando grabaciones almacenadas en ficheros de audio.

AutoLearn

Adicionalmente ReconVox incorpora características especiales avanzadas de extraordinario valor que establecen el estado del arte en tecnología del habla. Una de ellas es AutoLearn. Gracias a AutoLearn el sistema puede aprender por sí solo dinámicamente a medida que se va utilizando para adaptarse de manera automática a las particularidades vocales de una persona concreta, a una región dialéctica determinada o incluso a un entorno con un fuerte ruido característico. De este modo cuanto más se utiliza el sistema, mayor es la precisión del reconocimiento.

Si se desea maximizar su rendimiento, también es posible supervisar el aprendizaje de AutoLearn proporcionándole locuciones conocidas de antemano, con objeto de acelerar el proceso de adaptación y mejorar aún más la precisión.

ConfScore

Otra de las funcionalidades adicionales que ReconVox proporciona es ConfScore. Mediante esta característica, es posible obtener una puntuación de confianza asociada a cada una de las palabras resultantes del reconocimiento, así como una global relativa a toda la sentencia. Estas puntuaciones indican hasta qué punto ha habido incertidumbre durante el proceso de análisis de la señal del habla y obtención de las palabras finalmente reconocidas.

Por tanto, esta funcionalidad es especialmente útil en situaciones en las que es necesario contemplar la posibilidad de que aparezcan palabras fuera de vocabulario, o cuando las condiciones acústicas que se esperan encontrar en el entorno de reconocimiento son especialmente ruidosas o desfavorables y por tanto más propensas a errores.

WordSpotting

Cuando lo que se desea es detectar ciertas palabras o expresiones clave en un entorno de texto libre en el que puede aparecer cualquier número de palabras fuera de vocabulario, la funcionalidad de WordSpotting puede ser la más adecuada. Gracias a ella es posible establecer una política flexible de reconocimiento, no atada a una construcción gramatical prefijada, capaz de escuchar en un flujo de audio cualquiera y extraer únicamente las palabras concretas que nos interesen. Por tanto, esta funcionalidad puede beneficiarse de ConfScore, aunque se puede optar por cada una de ellas de manera totalmente independiente.

Características clave

  • Configurable para reconocimiento de órdenes aisladas o habla continua.
  • Independiente del locutor: no necesita entrenamiento previo.
  • AutoLearn: aprendizaje automático a un locutor determinado, región dialéctica o entorno ruidoso.
  • ConfScore: puntuación de confianza del resultado del reconocimiento a nivel de palabra y de sentencia.
  • WordSpotting: detección de palabras o frases clave.
  • Vocabularios personalizables: desde unas pocas órdenes hasta miles de palabras.
  • Gramáticas personalizables: estructuras fijas de sentencia o bien flexibilidad en las construcciones gramaticales.
  • Actualmente disponible en español, inglés USA e inglés UK. Próximamente nuevos idiomas.
  • Motor de reconocimiento eficiente: apto para entornos empotrados.
  • ReconVox está disponible tanto en forma de DLL (Dynamic Link Library) para plataformas Windows como en forma de librería dinámica para plataformas UNIX/Linux. Consultar disponibilidad para otras arquitecturas o entornos empotrados.

AutoLearn

AutoLearn es una excitante nueva tecnología que permite a nuestro sistema de reconocimiento del habla aprender y mejorar su rendimiento según va siendo utilizado. Soporta dos modos de funcionamiento:

  • Dinámico: en este modo AutoLearn se encarga de gestionar todo el proceso de aprendizaje por sí solo. Almacena internamente las locuciones que le van llegando, obtiene las transcripciones asociadas a cada una de ellas a partir de los resultados del reconocimiento y actualiza los modelos acústicos periódicamente y de manera incremental cuando se considera que hay suficiente información recopilada como para efectuar una actualización de manera fiable. Tan pronto como esto ocurre, los nuevos modelos mejorados son utilizados inmediatamente en los siguientes reconocimientos y el proceso de aprendizaje continúa en un nuevo ciclo que mejorará al anterior. Y todo ello de manera automática, el usuario simplemente activa AutoLearn y sigue utilizando ReconVox de la manera habitual.
  • Supervisado: si se desea maximizar la mejora de la precisión y acelerar el proceso de aprendizaje, es posible utilizar AutoLearn de manera supervisada. Para ello el usuario proporciona locuciones conocidas junto con sus transcripciones, pudiendo elegir sentencias libres de errores y ricas fonéticamente, tutelando de este modo el proceso. En este modo de funcionamiento el usuario tiene control total sobre el número de locuciones que se van a utilizar durante el proceso de aprendizaje, así como de su longitud, vocabulario y canal de grabación.

ConfScore

En determinadas situaciones puede resultar extremadamente útil determinar con qué grado de seguridad o confianza se ha producido el reconocimiento de ciertas palabras, que por ejemplo pueden resultar claves para la comprensión de una sentencia o en casos en los que se encuentren rodeadas de palabras desconocidas, fuera del vocabulario. ConfScore proporciona información adicional en este sentido.

Si se activa esta funcionalidad, ConfScore ofrece junto a cada palabra obtenida durante el reconocimiento una métrica que indica la probabilidad estimada de que la transcripción proporcionada realmente se corresponda con la palabra pronunciada. Además, con cada locución proporciona una métrica global asociada a toda la sentencia en conjunto.

Estos valores de confianza deben de ser calculados expresamente al margen del propio reconocimiento, por lo que ConfScore puede ser activado o desactivado a voluntad para cada reconocimiento si se considera que en un determinado entorno de ejecución el tiempo de respuesta es crítico.

Aplicaciones

  • Centros de llamadas automáticos (reconocimiento automático de diálogos próximos al lenguaje natural).
  • Domótica y alarmas (control de dispositivos electrónicos mediante la voz, activación de alarmas…).
  • Control de dispositivos electrónicos de ayuda a personas discapacitadas (órdenes de voz que sólo obedecen al usuario auténtico).
  • Control de sistemas de apoyo en el sector del automóvil (control de navegador/teléfono mediante la voz…).
  • Búsqueda documental en audio/vídeo por contenido (búsqueda automática de términos o conceptos clave).
  • Educación: aprendizaje de idiomas, tratamiento de ciertas patologías del habla como dislexia o afasia (autoevaluación de la pronunciación mediante reconocimiento del habla).

Reconocimiento del Habla

Es la tecnología que permite al sistema obtener de manera automática la transcripción de palabras o frases pronunciadas por un locutor. Los reconocedores pueden clasificarse según el tamaño de su vocabulario y la cadencia de aparición de palabras en tres tipos:

  • De palabras aisladas, en el cual cada una se pronuncia con una pausa entre medias.
  • De frases cortas, para aplicaciones de orden y control, limitado a frases especificas pero que usan palabras conectadas, sin necesidad de pausas entre palabras.
  • De grandes vocabularios próximos al lenguaje natural, cuyos vocabularios pueden contener miles de palabras.

Si nos centramos en el locutor existen reconocedores que son independientes del locutor, frente a los que son dependientes de éste, que necesariamente han de ser entrenados de manera específica y anticipada por la persona que va a hacer uso del reconocedor.

La tecnología de reconocimiento del habla (Automatic Speech Recognition (ASR)) en la que se basa ReconVox es la más frecuente y que mejores resultados proporciona actualmente y se apoya en la teoría de los modelos ocultos de Markov (Hidden Markov Models (HMM)). Éstos modelan la dinámica interna de la producción del habla en función de estados que representan los sonidos fundamentales que componen las palabras, así como de las probabilidades de transición entre éstos. Para estimar los valores óptimos de estos estados y sus transiciones se utilizan bases de datos con gran cantidad de locuciones fonéticamente balanceadas representativas del entorno y canal de explotación finales que permiten modelar de manera fiable estos parámetros.