Sistemas de reconocimiento del habla (ASR). ¿Qué es?

inteligencia artificial call center

En la serie de artículos que estamos compartiendo sobre la tecnología en la que se apoya Upbe, ya hemos hablado de cuestiones fundamentales. Como las diferencias entre Inteligencia Artificial, Machine Learning y Deep Learning. O las que existen entre NLP, NLU y NLG. Hoy toca hablar de ASR.

En este último hablábamos del potencial de estas técnicas en los contact centers, detallando los entornos de herramientas y técnicas que acompañan el NLP. En estos entornos se sitúan los sistemas de Speech Technologies, que son dos:

  1. Sistemas de reconocimiento del habla (ASR)
  2. Sistemas de síntesis del habla (Text-To-Speech)

Estos sistemas hacen de interfaz entre las personas y los sistemas NLP. Estas tecnologías son el canal que permite la comunicación entre humanos y máquinas. Para el caso del ASR permite la comunicación de un emisor humano y un receptor máquina permitiendo que módulos NLP reciban una transcripción de texto. Y los sistemas Text-To-Speech establecen una comunicación donde la máquina es el emisor y el humano el receptor convirtiendo el texto en discurso hablado.

Hoy vamos a profundizar en los sistemas de reconocimiento del habla (ASR – Automatic Speech Recognition). Estos sistemas están totalmente integrados en nuestro día a día. Como tecnología, está validada ya que son sistemas en los que se apoyan los asistentes de voz (de Apple, Google o Amazon) o aplicaciones de mensajería (para dictados, por ejemplo).

¿Cómo funcionan los sistemas de ASR?

En corto: el audio que entra se convierte en texto. Para convertirlo, entre medias, el audio tiene que convertirse a un archivo que pueda ser leído por la máquina. Esto significa que la herramienta trabaja con modelos acústicos y del lenguaje.

Los modelos acústicos contienen una representación estadística de un sonido o fonema. Se crea usando muchos datos acústicos. El modelo de lenguaje representa estadísticamente la probabilidad en las que podrían ocurrir o suceder las palabras. Es decir, estos modelos estiman la probabilidad de que aparezcan ciertos fonemas que significan ciertas palabras.

El objetivo del modelo acústico es crear un conjunto de probabilidades que representen todos los sonidos del lenguaje que se deben reconocer. Para crear los modelos acústicos se tiene que determinar antes qué sonidos se quieren representar o qué modelo probabilístico se utilizará.

Esos modelos determinan la relación que hay entre las señales de audio y los fonemas del lenguaje. Mientras tanto, el modelo concluye qué sonidos encajan con qué palabras y frases.

En pasos:

  1. Le hablas a un software.
  2. El dispositivo crea archivos de texto.
  3. El archivo es limpiado por el software de ruidos.
  4. El archivo de divide en fonemas.
  5. El sistema ASR, por probabilidad basada en el modelo de lenguaje, une los fonemas y transcribe el audio original a texto.

Ahora que lo ha entendido, el sistema ASR puede responder generando una transcripción entendiendo tu contexto. Y responder con sentido. Eso es lo fundamental, y más aplicado al entorno de análisis en el que una gran empresa o contact center. Convertir datos no estructurados en información estructurada, para analizarla, es diferencial para el negocio.

Sistema ASR que es

En este sentido, también es importante resaltar que un sistema ASR es capaz de, con la suite de tecnología adecuada, interpretar jergas, usos del lenguaje particulares o acentos. Este es un enfoque con el que actualmente trabajamos en Upbe, porque sabemos que hay mucha inteligencia de negocio en interpretar adecuadamente esta información.

¿Qué aplicaciones tienen los sistemas de reconocimiento del habla?

Las aplicaciones de los sistemas ASR (Automatic Speech Recognition) son muy diversas. Como decíamos al principio, es una tecnología absolutamente integrada en nuestro día a día. Aquí puedes ver varios ejemplos:

  • Telefonía: sistemas de dictado, activación de interfaces personales, transcripciones de mensajes, búsquedas por voz o traducciones automáticas son algo común basado en sistemas de reconocimiento del habla.
  • Automoción: cualquier instrucción de voz que un coche es capaz de entender y gestionar, como hacer llamadas, poner la radio o incluso abrir una aplicación concreta.
  • Domótica: todo tipo de hardware que recibe instrucciones y reacciona a órdenes concretas. Aquí están tanto Alexa como Google Home. O cualquier instrucción para apagar o encender luces o regular el termostato.
  • Aplicaciones en el ámbito militar. Para poder tener autonomía e independencia durante el vuelo, existe mucha tecnología basada en sistemas ASR para cambiar frecuencias de transmisión, iniciar modos de auto-vuelo o desplegar parametros para establecer coordenadas de vuelo.
  • Audiovisual: es común utilizar tecnologías de Speech Recognition para subtitular programas, tanto en directo como on-demand.
  • Ámbito judicial: existen iniciativas muy interesantes para optimizar la transcripción de información tan necesaria en el sector o para búsqueda de archivos.
  • Call Center: centrado en el análisis de voz de cliente, en la automatización de controles de calidad y compliance, o en la mejora de efectividad en campañas de venta.
  • Y mucho más, como sistemas de IVR, robótica, aplicacions en la industria del video juego, traducciones automáticas, etc.

¿Por qué son tan relevantes los sistemas de ASR?

Viendo este listado, que puede ampliarse más, de las aplicaciones de los sistemas ASR, se entiende su relevancia. Toda esta información, la que podemos pasar de un audio a texto, es muy común y compleja. Tanto que sus aplicaciones, en el caso del contact center, suponen revolucionar por completo una industria o sector.

Parece simple transcribir un audio dictado, pero esto por lo general no ocurre en las llamadas de tu call center. Existen muchas interferencias que los sistemas ASR son capaces de separar y analizar. Hay contextos de mucha complejidad, con grabaciones de audio muy comprimidas, con solapamientos de voces o ruidos de fondo que distorsionan lo que hay en los audios.

Además, por lo general, los interlocutores hablan a distintas velocidades, con diversidad de emociones e incluso de acentos o jerga. Esto es lo que hace que el proceso sea complejo y necesite la tecnología a su disposición.

¿Cómo sabemos que el sistema ASR funciona?

Existen dos métricas para evaluar si nuestro sistema funciona adecuadamente:

  • Word error rate, que mide el porcentaje de caracteres erróneos. Lo hace analizando el número se palabras borradas, sustituidas o insertadas que tenemos que intervenir para conseguir la frase real transcrita.
  • Sentence error rate, que mide el porcentaje de frases intervenidas en un texto.

Por lo general, la más válida o utilizada es el WER (word error rate). ¿Cómo se calcula? Para calcular el WER tenemos que calcular el número de palabras sustituidas, insertadas o eliminadas entre la versión correcta del texto y la versión que sale del sistema ASR tal cual. En este caso hemos hecho la prueba con la funcionalidad de dictado de una marca estándar de telefonía móvil:

ejemplo WER de sistema ASR

En un ejemplo en el que las palabras subrayadas en amarillo están mal (y las amarillas son la opción correcta), el WER es del 9,4%. Hemos entendido que hay 5 modificaciones entre un total de 53 palabras.

En siguientes artículos hablaremos del WER del ASR de Upbe, de cómo se compara con otras soluciones del mercado y cómo contrasta unos datos con otros.

3 Comments

Leave a comment