¿Qué es TTS?

TTS (Text-to-speech) ha sido un tema candente en el campo de la investigación de la inteligencia artificial en los últimos años. Este modelo se ha utilizado ampliamente en el campo de la síntesis de voz.

Especialmente en los últimos dos años, los audiolibros se han vuelto muy populares. Son muchas las novelas online acumuladas en los últimos años. Después de pasar por el modelo TTS, se convierte en audiolibro y luego se vende online a través de canales similares como Himalaya o Dragonfly FM. También llena directamente el valor de aplicación de este tipo de modelo.

Sin embargo, un buen modelo de síntesis de voz es muy raro. Por un lado, es necesario generar un habla correcta, es decir, con alta precisión, por otro lado, el habla generada debe ser realista y tener una sensación mecánica baja; Especialmente el segundo aspecto es muy raro. Los seres humanos leen oraciones de manera rítmica y, a veces, habrá cambios emocionales según el significado de la oración. Esto es muy difícil para el aprendizaje y la formación de modelos.

Además, está el problema de la integración multilingüe: por ejemplo, el chino mezclado con el inglés; el problema del timbre es sintetizar el habla con un timbre específico basándose en las características de un pequeño número de huellas vocales. . Como barítono y soprano. Por lo tanto, no se puede satisfacer un modelo TTS simple y fácil de usar.

El esquema de diseño del modelo convencional actual se divide en dos partes: modelo acústico y vocoder. El modelo acústico utiliza principalmente el modelo tipo Burt para realizar procesamiento NLP en el texto de entrada y predecir las características acústicas. El vocoder utiliza principalmente el modelo GAN para convertir características acústicas en información acústica.

Recientemente se ha lanzado un nuevo modelo TTS al mercado de modelos de inteligencia artificial. A través de la comunicación con el autor, descubrimos que el autor utilizó el modelo anterior y creó con éxito un excelente modelo TTS después de 10 horas de capacitación en big data. Los resultados reales de las pruebas muestran que la precisión, velocidad y autenticidad del modelo están muy equilibradas, y también es compatible con chino e inglés ~

Los amigos necesitados pueden venir al AI Model Market (aimodelmarket .cn) para una prueba. Ven y mira cómo este valiente campo de generación de voces juega TTS ~