Antes de que un contact center pueda analizar las llamadas en cuanto a intent, temas y otros aspectos relacionados con la AI, primero debe transcribir la voz a texto (STT). Los Speech-to-Text Models constituyen la base de los productos con tecnología de AI, como Talkdesk Copilot e Interaction Analytics.
Los errores de Transcription suelen producirse con nombres de marcas, nombres de productos únicos, acrónimos o jerga específica de un ámbito (palabras fuera del vocabulario). Con Talkdesk CXA Operations Center (anteriormente AI Trainer), puede corregir estos problemas de reconocimiento específicos para mejorar el rendimiento general del modelo.
- Factores que afectan la precisión de la Transcription
- Acceso a su Custom Vocabulary Model
- La Vocabulary List
- Añadición o edición de una frase
- Directrices de formato y mejores prácticas
- Prueba del Custom Vocabulary
Factores que afectan la precisión de la transcripción
Si bien Custom Vocabulary mejora el reconocimiento de términos específicos, la calidad general de la transcripción depende en gran medida del audio de origen. Tenga en cuenta que los modelos de STT son sensibles a:
- Ruido de fondo: Los entornos ruidosos o el ruido estático pueden reducir significativamente la claridad.
- Interferencia: Varias voces hablando simultáneamente ("habla superpuesta").
- Discurso superpuesto: Si se pronuncia un término del Custom Vocabulary mientras otra persona está hablando, es posible que el modelo no logre aislarlo ni reconocerlo.
- Calidad de audio: Los micrófonos de baja calidad o los problemas de conexión afectan los resultados.
- Acentos y dialectos: Los modelos de STT se entrenan con pronunciaciones regionales específicas. Si el acento de la persona que habla difiere significativamente de la configuración regional de idioma seleccionada (por ejemplo, si se utiliza un modelo de inglés estadounidense para una persona que habla con un fuerte acento británico), es posible que la AI no logre hacer coincidir los sonidos con las palabras. Asegúrese siempre de que la configuración regional seleccionada coincida con el acento principal de su contact center.
Acceso a su Custom Vocabulary Model
- Vaya a la página de inicio del CXA Operations Center (página Models).
- Seleccione el modelo Custom Vocabulary STT (Speech-to-text) [1] que desea mejorar.
- Sugerencia: Si su operación abarca varias regiones, asegúrese de seleccionar el modelo de idioma correcto (por ejemplo, en-US frente a en-GB).
- Se le redirigirá a la página Custom Vocabulary[2].
La Vocabulary List
La página Vocabulary muestra todos los términos personalizados que ha añadido al modelo. Incluye las siguientes columnas:
- Phrase: El valor que la AI está entrenada para "escuchar".
- Display as: El valor que aparecerá en la Transcription final.
Desde esta vista, puede Editar las entradas existentes haciendo clic en la fila o añadir nuevas.
Añadición o edición de una frase
Para mejorar la precisión del reconocimiento, se "potencian" palabras específicas añadiéndolas al vocabulario.
- Haga clic en el botón New Entry en la parte superior derecha.
- Aparecerá un panel lateral con dos campos distintos. Dado que se han simplificado las instrucciones de formato de la interfaz de usuario, es esencial que siga las siguientes Directrices de formato para garantizar que la AI interprete su entrada correctamente.
1. El campo "Phrase":
Básicamente, lo que está haciendo es preparar el servicio para que reconozca un término específico. Esto le indica a la AI que es probable que aparezca una palabra o frase que sea complicada de entender correctamente, como por ejemplo:
- Nombres
- Palabras o acrónimos únicos de una industria u organización específica
- Location geográfica
Para asegurarse de que el modelo reconoce el sonido correctamente, debe usar el siguiente formato:
- Sin espacios: Nunca use espacios en este campo.
- Guiones: Use guiones para separar las palabras (por ejemplo, Nueva-York).
- Acrónimos: Use puntos para separar las letras si deben pronunciarse individualmente (por ejemplo, A.P.I.).
2. El campo "Display as":
Esta es la salida visual. Tiene total libertad para usar espacios, mayúsculas y signos de puntuación estándar.
Directrices de formato y mejores prácticas
Utilice esta tabla de referencia al añadir nuevos términos:
| Escenario |
Entrada "Phrase" (Formato: sin espacios) |
Entrada "Display as" (Formato estándar) |
¿Por qué? |
| Marca de varias palabras | Talkdesk-Phone | Talkdesk Phone | Los guiones unen las palabras, lo que obliga al modelo a tratarlas como una única entidad. |
| Acrónimos | H.O.D. | HOD | Los puntos le indican al motor que pronuncie las letras individualmente ("H-O-D") en lugar de como una palabra ("Hod"). Cualquier letra pronunciada debe estar separada por un punto. |
| Acrónimos en plural | A.B.C.-s | ABCs | Es necesario el guión antes de la "s" para indicar claramente la pluralidad. |
| Términos híbridos | Dynamo-D.B. | DynamoDB | Separa la palabra ("Dynamo") del acrónimo ("DB"). |
| Números | V.X.-cero-dos-Q. | VX02Q | No incluya cifras en el campo Phrase. Las cifras deben escribirse en letras. |
| Frases que suenan parecidas | Contoso | Contoso | Mejora las frases comunes que suenan igual ("Contoso" frente a "can’t do so"). |
| Términos específicos | Paracetamol | Paracetamol | Mejora y potencie los términos que suelen transcribirse incorrectamente. |
| Potenciación simple | Los-Angeles | Los Angeles | Con solo escribir la palabra (por ejemplo, marcas complicadas) aumenta su importancia. |
| Potenciación de acrónimos | NPS | NPS | Aumenta la probabilidad de reconocer el acrónimo (Net Promoter Score) frente a sonidos comunes como "MPs". |
Notas:
- Los campos "Sounds Like" e "IPA" se han eliminado para mejorar el modelo de STT. El motor de voz se basa en el campo Phrase.
- Los ejemplos pueden variar de un idioma a otro y en función de múltiples factores que afectan a la Transcription.
Guardado de los cambios
- Nuevas frases: Haga clic en Create para añadir el término a la lista.
- Edición: Si está corrigiendo un término existente, modifique los campos y haga clic en Save para actualizar el modelo.
Prueba del Custom Vocabulary
Después de añadir nuevas frases, el modelo se actualizará automáticamente. Debe verificar que los cambios hayan solucionado el error de Transcription.
- Haga clic en el botón Test vocabulary en la parte superior derecha.
- La ventana modal mostrará la opción Record audio.
- Haga clic en Start recording y diga una frase que contenga su nuevo término de manera natural.
- Nota: Las Sessions de prueba del Custom Vocabulary permanecen activas durante un máximo de 30 segundos o hasta que haga clic en Stop Recording.
Revise la salida: Compruebe el texto siguiente para ver si la "Phrase" se ha reconocido y asignado correctamente al formato "Display as".