Sitio web de resúmenes de películas - Colección completa de películas - Estafa telefónica que graba una voz en off divertida

Estafa telefónica que graba una voz en off divertida

Los asistentes inteligentes, las voces de navegación e incluso algunos programas de noticias que utilizamos todos los días son voces sintetizadas por máquinas.

¿Los presentadores de IA sintetizan automáticamente voz y video para producir contenido de noticias todos los días? ?

Cómo sintetizar un discurso

La síntesis de voz parece muy complicada, pero en realidad podemos sintetizar un discurso en casa:

Por ejemplo, si pones "Alipay en su cuenta" Grabe las palabras "yuan" y "123456" y reprodúzcalas con un método de empalme específico, y obtendrá el sonido de pago que han escuchado los 800 millones de usuarios de Alipay en China.

Por supuesto, el sonido que grabas tú mismo no es dulce ni pagado.

Este método de "empalmar" piezas de audio para finalmente obtener un sonido se llama empalme.

En la vida diaria, el sonido sintetizado producido por el método de empalme se remonta a la cantina en la esquina de tu casa a la que debes ir después de la escuela, y a la transmisión de voz de la calculadora de gran tamaño presionada por la tía cajera.

“¡Uno más uno, uno más dos es igual a cero!”

Las muestras grabadas mediante el método de empalme original son solo unas pocas frases y oraciones fijas, y los sonidos grabados para la navegación pueden Sólo se utilizará para la navegación. Si le preguntas cómo está el tiempo hoy, incluso si sabe la respuesta, no podrá anunciarlo por voz.

Más tarde, un hombre inteligente le dio unas palmaditas en la cabeza y se le ocurrió un truco: si grabo cada carácter chino, todo quedará escrito.

Las frases sintetizadas mediante el método de empalme todavía tienen un defecto importante: la entonación y las pausas.

La señorita Zhanyan, quien da voz a Alipay, reveló una vez que grabó varios sonidos al grabar la voz de "cuatro" para asegurar el efecto de síntesis en diferentes escenas. Además, el método de empalme no sabe segmentar las frases de “El pequeño no encuentra a sus padres/los padres están ansiosos” y “El pequeño no encuentra a sus padres/los padres están ansiosos”.

El empalme puede resolver el problema de cómo pronunciar cada palabra, pero definitivamente no parecerá una persona normal.

Entonces, cómo hacer que el habla sintetizada suene más realista se ha convertido en la máxima prioridad para la optimización de todos.

Cómo hacer que el sonido sea más realista

Además de aumentar el tamaño de la muestra, se debe introducir otra tecnología clave: el algoritmo.

Con algoritmos, los sonidos sintetizados parecen estar impregnados de alma. Para decirlo sin rodeos, es "un algoritmo inteligente que sabe cómo lidiar con el tono y las pausas de una oración".

Este método de utilizar algoritmos para generar sonidos sintéticos se llama método paramétrico.

El método paramétrico requiere naturalmente una fuente de sonido más alta. "Eliminar segmentos silenciosos" y "entorno de grabación profesional" son operaciones de rutina. Lo más importante es que el sonido que se va a grabar ya no es la pronunciación de la palabra.