Entrenamiento de Speech-to-Text Models en Talkdesk CXA Operations Center (anteriormente AI Trainer) – Knowledge Base

Antes de que un contact center pueda analizar las llamadas en cuanto a intent, temas y otros aspectos relacionados con la AI, primero debe transcribir la voz a texto (STT). Los Speech-to-Text Models constituyen la base de los productos con tecnología de AI, como Talkdesk Copilot e Interaction Analytics.

Los errores de Transcription suelen producirse con nombres de marcas, nombres de productos únicos, acrónimos o jerga específica de un ámbito (palabras fuera del vocabulario). Con Talkdesk CXA Operations Center (anteriormente AI Trainer), puede corregir estos problemas de reconocimiento específicos para mejorar el rendimiento general del modelo.

Factores que afectan la precisión de la Transcription
Acceso a su Custom Vocabulary Model
La Vocabulary List
Añadición o edición de una frase
- 1. El campo "Phrase"
- 2. El campo "Display as"
Directrices de formato y mejores prácticas
- Guardado de los cambios
Prueba del Custom Vocabulary

Factores que afectan la precisión de la transcripción

Si bien Custom Vocabulary mejora el reconocimiento de términos específicos, la calidad general de la transcripción depende en gran medida del audio de origen. Tenga en cuenta que los modelos de STT son sensibles a:

Ruido de fondo: Los entornos ruidosos o el ruido estático pueden reducir significativamente la claridad.
Interferencia: Varias voces hablando simultáneamente ("habla superpuesta").
Discurso superpuesto: Si se pronuncia un término del Custom Vocabulary mientras otra persona está hablando, es posible que el modelo no logre aislarlo ni reconocerlo.
Calidad de audio: Los micrófonos de baja calidad o los problemas de conexión afectan los resultados.
Acentos y dialectos: Los modelos de STT se entrenan con pronunciaciones regionales específicas. Si el acento de la persona que habla difiere significativamente de la configuración regional de idioma seleccionada (por ejemplo, si se utiliza un modelo de inglés estadounidense para una persona que habla con un fuerte acento británico), es posible que la AI no logre hacer coincidir los sonidos con las palabras. Asegúrese siempre de que la configuración regional seleccionada coincida con el acento principal de su contact center.

Acceso a su Custom Vocabulary Model

Vaya a la página de inicio del CXA Operations Center (página Models).
Seleccione el modelo Custom Vocabulary STT (Speech-to-text) [1] que desea mejorar.
- Sugerencia: Si su operación abarca varias regiones, asegúrese de seleccionar el modelo de idioma correcto (por ejemplo, en-US frente a en-GB).
Se le redirigirá a la página Custom Vocabulary[2].

La Vocabulary List

La página Vocabulary muestra todos los términos personalizados que ha añadido al modelo. Incluye las siguientes columnas:

Phrase: El valor que la AI está entrenada para "escuchar".
Display as: El valor que aparecerá en la Transcription final.

Desde esta vista, puede Editar las entradas existentes haciendo clic en la fila o añadir nuevas.

Añadición o edición de una frase

Para mejorar la precisión del reconocimiento, se "potencian" palabras específicas añadiéndolas al vocabulario.

Haga clic en el botón New Entry en la parte superior derecha.
Aparecerá un panel lateral con dos campos distintos. Dado que se han simplificado las instrucciones de formato de la interfaz de usuario, es esencial que siga las siguientes Directrices de formato para garantizar que la AI interprete su entrada correctamente.

1. El campo "Phrase":

Básicamente, lo que está haciendo es preparar el servicio para que reconozca un término específico. Esto le indica a la AI que es probable que aparezca una palabra o frase que sea complicada de entender correctamente, como por ejemplo:

Nombres
Palabras o acrónimos únicos de una industria u organización específica
Location geográfica

Para asegurarse de que el modelo reconoce el sonido correctamente, debe usar el siguiente formato:

Sin espacios: Nunca use espacios en este campo.
Guiones: Use guiones para separar las palabras (por ejemplo, Nueva-York).
Acrónimos: Use puntos para separar las letras si deben pronunciarse individualmente (por ejemplo, A.P.I.).

2. El campo "Display as":

Esta es la salida visual. Tiene total libertad para usar espacios, mayúsculas y signos de puntuación estándar.

Directrices de formato y mejores prácticas

Utilice esta tabla de referencia al añadir nuevos términos:

Escenario	Entrada "Phrase" (Formato: sin espacios)	Entrada "Display as" (Formato estándar)	¿Por qué?
Marca de varias palabras	Talkdesk-Phone	Talkdesk Phone	Los guiones unen las palabras, lo que obliga al modelo a tratarlas como una única entidad.
Acrónimos	H.O.D.	HOD	Los puntos le indican al motor que pronuncie las letras individualmente ("H-O-D") en lugar de como una palabra ("Hod"). Cualquier letra pronunciada debe estar separada por un punto.
Acrónimos en plural	A.B.C.-s	ABCs	Es necesario el guión antes de la "s" para indicar claramente la pluralidad.
Términos híbridos	Dynamo-D.B.	DynamoDB	Separa la palabra ("Dynamo") del acrónimo ("DB").
Números	V.X.-cero-dos-Q.	VX02Q	No incluya cifras en el campo Phrase. Las cifras deben escribirse en letras.
Frases que suenan parecidas	Contoso	Contoso	Mejora las frases comunes que suenan igual ("Contoso" frente a "can’t do so").
Términos específicos	Paracetamol	Paracetamol	Mejora y potencie los términos que suelen transcribirse incorrectamente.
Potenciación simple	Los-Angeles	Los Angeles	Con solo escribir la palabra (por ejemplo, marcas complicadas) aumenta su importancia.
Potenciación de acrónimos	NPS	NPS	Aumenta la probabilidad de reconocer el acrónimo (Net Promoter Score) frente a sonidos comunes como "MPs".

Notas:

Los campos "Sounds Like" e "IPA" se han eliminado para mejorar el modelo de STT. El motor de voz se basa en el campo Phrase.
Los ejemplos pueden variar de un idioma a otro y en función de múltiples factores que afectan a la Transcription.

Guardado de los cambios

Nuevas frases: Haga clic en Create para añadir el término a la lista.
Edición: Si está corrigiendo un término existente, modifique los campos y haga clic en Save para actualizar el modelo.

Prueba del Custom Vocabulary

Después de añadir nuevas frases, el modelo se actualizará automáticamente. Debe verificar que los cambios hayan solucionado el error de Transcription.

Haga clic en el botón Test vocabulary en la parte superior derecha.
La ventana modal mostrará la opción Record audio.
Haga clic en Start recording y diga una frase que contenga su nuevo término de manera natural.
- Nota: Las Sessions de prueba del Custom Vocabulary permanecen activas durante un máximo de 30 segundos o hasta que haga clic en Stop Recording.

Revise la salida: Compruebe el texto siguiente para ver si la "Phrase" se ha reconocido y asignado correctamente al formato "Display as".

¿Cómo podemos ayudar?

Entrenamiento de Speech-to-Text Models en Talkdesk CXA Operations Center (anteriormente AI Trainer)

Publicado 10 de septiembre de 2021 09:58 • Última Actualización 7 de mayo de 2026 15:58

Factores que afectan la precisión de la transcripción

Acceso a su Custom Vocabulary Model

La Vocabulary List

Añadición o edición de una frase

1. El campo "Phrase":

2. El campo "Display as":

Directrices de formato y mejores prácticas

Guardado de los cambios

Prueba del Custom Vocabulary

Factores que afectan la precisión de la transcripción

Acceso a su Custom Vocabulary Model

La Vocabulary List

Añadición o edición de una frase

1. El campo "Phrase":

2. El campo "Display as":

Directrices de formato y mejores prácticas

Guardado de los cambios

Prueba del Custom Vocabulary

Artículos relacionados