¿Qué significa voz TTS?
TTS es la abreviatura de Text To Speech, que significa "de texto a voz". Es un brillante trabajo de lingüística y psicología, impulsado por chips y redes neuronales integrados, diseñado para convertir de manera inteligente texto en un flujo de voz natural. La tecnología TTS convierte archivos de texto en tiempo real, en tan solo unos segundos. Bajo la acción de su exclusivo controlador de voz inteligente, la salida de voz del texto es fluida, lo que hace que el oyente se sienta natural al escuchar la información, sin la frialdad y rigidez de la salida de voz de la máquina. "La tecnología de síntesis de voz TTS pronto cubrirá los caracteres chinos estándar nacional de primer y segundo nivel, y tiene una interfaz en inglés que reconoce automáticamente chino e inglés y admite lectura mixta de chino e inglés. Todos los sonidos del habla se basan en la pronunciación real del mandarín, logrando 120-150 caracteres chinos/segundo La rápida síntesis de voz y una velocidad de lectura de 3-4 caracteres chinos/segundo permiten a los usuarios escuchar una calidad de sonido clara y agradable y tonos coherentes y suaves. Actualmente, existen muchos reproductores MP3 con función TTS. p>
TTS está disponible. Una aplicación de síntesis de voz que convierte documentos almacenados en una computadora (como archivos de ayuda o páginas web) en salida de voz natural se puede utilizar para ayudar a las personas con discapacidad visual a leer información en las computadoras. simplemente para mejorar la calidad de los documentos de texto. TTS se utiliza a menudo junto con programas de reconocimiento de voz. Hay muchos productos TTS, incluidos Read Please 2000, Proverbe Speech Unit y TextAloud de Next Up Technology. >
Además del software TTS, varios proveedores ofrecen productos de hardware, incluido el Quick Link Pen de WizCom Technologies, con sede en Israel, un dispositivo similar a un lápiz que escanea y lee texto, y Road Runner de Ostrich Software, un Un dispositivo portátil que lee texto ASCII). Road Runner de Ostrich Software es un dispositivo portátil que lee texto ASCII; DecTalk TTS de DEC es un dispositivo de reemplazo de tarjeta de sonido externa que incluye una tarjeta de sonido interna que se puede usar con la propia tarjeta de sonido de la PC. equipo
[Editor]Análisis TTS
TTS tiene una amplia gama de usos en la conversión de texto a voz, incluida la lectura de correo electrónico, indicaciones de voz para sistemas IVR, etc. Se ha utilizado ampliamente en diversas industrias (como telecomunicaciones, transporte, etc.).
La tecnología clave utilizada en TTS es la síntesis de voz (los primeros TTS se implementaban generalmente utilizando chips dedicados, como Texas Instruments). 'TMS50C10/TMS50C57, PH84H36 de Philips, etc., pero se utilizan principalmente en electrodomésticos o juguetes para niños.
El TTS basado en aplicaciones de microcomputadoras generalmente se implementa mediante software puro e incluye principalmente las siguientes partes: p>
● Análisis de texto: análisis lingüístico del texto de entrada, análisis léxico, gramatical y semántico oración por oración para determinar la estructura subyacente de la oración y la composición de fonemas de cada palabra, incluida la segmentación de texto, segmentación de palabras, multi- procesamiento de palabras por sílabas, procesamiento digital, procesamiento de abreviaturas, etc.
●Síntesis de voz (síntesis de voz): extrae palabras o frases correspondientes al texto procesado de la biblioteca de síntesis de voz y convierte la descripción del idioma en una forma de onda de voz. .
●●Procesamiento de rima: calidad del habla sintética (calidad del habla sintética) se refiere a la calidad del habla producida por el sistema de síntesis del habla, que generalmente se evalúa subjetivamente en términos de claridad (o inteligibilidad), naturalidad y coherencia. . La claridad se refiere al porcentaje de identificación correcta de palabras significativas; la naturalidad se usa para evaluar si la calidad del sonido del habla sintetizada es cercana a la voz humana y si la entonación de las palabras sintetizadas es natural para evaluar si las palabras sintetizadas son naturales; el habla es fluida.
Para sintetizar voz de alta calidad, los algoritmos utilizados son extremadamente complejos, por lo que los requisitos de la máquina también son muy altos. La complejidad del algoritmo determina la capacidad del sistema del TTS multicanal concurrente del microordenador actual.
La arquitectura básica de TTS en aplicaciones CTI
En los sistemas de aplicaciones CTI generales, habrá un IVR (sistema interactivo de respuesta de voz). El sistema IVR es una parte importante del centro de llamadas. A través del sistema IVR, los usuarios pueden utilizar llamadas de audio de pulsar para hablar para ingresar información y obtener información de voz sintética o digital pregrabada del sistema. IVR con función TTS puede acelerar el servicio y ahorrar costos de servicio, brindando así servicio 7*24 horas a las personas que llaman.
Actualmente, los sistemas IVR más comunes consisten en placas de voz conectadas a plataformas informáticas industriales generales y tecnologías de soporte como el TTS de síntesis de voz chino.
El proceso típico de servicio telefónico, incluido el servicio TTS, se puede dividir en:
El usuario marca, el sistema IVR responde y obtiene las pulsaciones de teclas del usuario y otra información.
IVR solicita datos relevantes del servidor de base de datos en función de la información clave del usuario.
El servidor de base de datos devuelve datos de texto al IVR.
El IVR envía la información de texto a sintetizar al servidor TTS a través de su interfaz de comunicación TCP.
El servidor TTS envía datos de voz segmentados sintetizados a partir del texto del usuario al servidor IVR a través de su interfaz de comunicación TCP.
El servidor IVR combina datos de voz segmentados en archivos de voz independientes.
El IVR reproduce el archivo de voz correspondiente al usuario del teléfono.
El acceso a la red pública general (IVR) utiliza principalmente computadoras industriales + placas de voz, y los datos de voz sintetizados se transmiten al IVR a través de la LAN. Esta estructura sólo es adecuada para aplicaciones sencillas.