Xpeng Auto no responde a los comandos de voz
El segundo se refiere a la rápida velocidad de respuesta de los comandos de voz, que se refiere al tiempo desde el final de la voz del usuario hasta el momento en que Little P comienza a ejecutar el comando. En la comparación del video, podemos encontrar que el retraso de respuesta del control de voz de la versión de velocidad actual se ha reducido de los 1,5 segundos originales a 0,9 segundos. Para productos de voz para vehículos, 0,9 s es un dato relativamente superior. Los productos de voz para automóviles actuales generalmente duran alrededor de 1,5 segundos, y los mejores productos pueden alcanzar los 1,2 segundos.
Aparte de eso, cada vídeo destaca la capacidad de comprender comandos de múltiples intenciones, pero esta es una característica existente del P7. Una mejor experiencia es que la respuesta TTS actual a los comandos de múltiples intenciones también es una respuesta integral, en lugar de transmitir el estado de ejecución de cada comando línea por línea.
Diálogo de tiempo completo
Después de activar el interruptor de diálogo de tiempo completo, Little P estará en un estado de transmisión continua. No es necesario que te despiertes en ningún momento (no). Necesito gritar Hola, pequeña P), solo diga Solo comando y ejecute. Actualmente, sólo se admiten algunos comandos, presumiblemente principalmente comandos de tipo control de automóviles. Durante la conversación de tiempo completo, el automóvil no reaccionará a comandos no admitidos, pero el usuario puede agregar una "pequeña P" en 5 segundos para que la pequeña P pueda reconocer el comando no admitido y ejecutarlo. Este tipo de diseño de producto resuelve inteligentemente el problema de la introducción de experiencias fragmentadas donde el diálogo a tiempo completo solo admite algunas áreas. Solo es necesario decir "pequeña p" en lugar de "hola pequeña p". En mi opinión personal, esta es la mejor actualización de funciones para el G9. Esto es como pedirle a alguien que te ayude con algo. Si la otra persona no se conmueve, puedes decir su nombre y será más natural acortar "Hola pequeña p" a "pequeña p".
En la demostración en vídeo, se puede ver que el método de interacción jointoneshot de G9 acorta la palabra de activación de cuatro letras "Hola pequeña p" a la "pequeña p" de dos letras, logrando un aumento en el número. de palabras de despertador. Una gran mejora. La tecnología actual de palabras de activación de dos palabras aún es muy inmadura y su uso por sí solo provocará una gran cantidad de falsas alarmas. Combinar esto con un comando que activa una palabra de activación de dos palabras en forma de un solo disparo alivia este problema. El despertador de dos palabras es más natural y más fácil de usar que el despertador de cuatro palabras, lo que hasta cierto punto alivia la vergüenza que el despertar trae a los usuarios. El espejo de fitness inteligente de Baidu también utiliza este diseño, y se dice que Apple también está utilizando este diseño para acortar "hola siri" a "siri".
Cuando activas el interruptor de diálogo a tiempo completo, solo admite diálogo a tiempo completo para el conductor principal de forma predeterminada. La animación de los ojos de Little P ha cambiado, lo que refleja los detalles del diseño del producto y una mejor experiencia de usuario.
Diálogo entre varias personas
Después de activar el diálogo entre varias personas y el diálogo a tiempo completo al mismo tiempo, la función de diálogo a tiempo completo se puede utilizar en cuatro ubicaciones en. las cuatro ubicaciones pueden hablar alternativamente o al mismo tiempo. No interfieren entre sí y satisfacen las necesidades de diálogo de varias personas.
G9 es un diálogo de múltiples rondas entre regiones, y diferentes regiones utilizan el mismo estado de múltiples rondas para el mantenimiento. Cuando el conductor principal dice "enciende la calefacción del asiento", el copiloto sólo necesita decir "Yo también quiero eso" para encender la calefacción del asiento del copiloto. Esto es principalmente para optimizar la herencia del diálogo de múltiples rondas para puntos funcionales relacionados con la vinculación de zonas de voz.
Los resultados de las cuatro posiciones ASR se muestran en las cuatro esquinas respectivamente, las respuestas también se muestran en la pantalla y las respuestas de zona están bloqueadas (a veces no respuestas TTS). Algunos de los detalles del producto aquí se destacan en el video.
Figura 2 Pantalla de diálogo de cuatro vías a tiempo completo
Análisis de funciones
Diálogo extremadamente rápido
En pocas palabras, la eterna búsqueda de tecnología de interacción de voz Se puede condensar en dos palabras: rápido y preciso.
La tecnología de interacción de voz rápida y precisa es una condición necesaria para crear productos de interacción de voz que realmente satisfagan a los usuarios. El objetivo de Extreme Dialog es lograr la "velocidad" de la interacción de voz.
Figura 3 Diagrama de flujo de datos de interacción de voz
La Figura 3 muestra el proceso simplificado desde la voz del usuario hasta la ejecución y respuesta del automóvil. El módulo de grabación en la parte amarilla es responsable de la recopilación de datos, la parte azul procesa los datos de voz recopilados para comprender la intención del usuario, la parte violeta responde al usuario según las instrucciones entendidas y la parte naranja es ejecutada por el automóvil. En términos generales, los usuarios sienten que el tiempo desde la grabación de voz hasta la ejecución del comando es relativamente rápido, lo que involucra hardware, algoritmos y otros módulos. De hecho, los módulos internos y la lógica de interacción de un producto de interacción de voz completo son mucho más complejos de lo que se muestra aquí. La forma de optimizar la velocidad de la interacción de voz se puede analizar desde tres aspectos: enlace de interacción, algoritmo, sistema y hardware.
1. Enlace interactivo
La optimización del enlace interactivo se refiere a acortar la ruta de transmisión de datos u optimizar la velocidad de transmisión de datos a través del diseño de lógica interactiva, de modo que los resultados de la retroalimentación fluyan al usuario más rápido. Los posibles escenarios de aplicación incluyen:
Utilice escenarios de aplicación sin conexión para optimizar la lógica de la integración sin conexión.
Utiliza streaming para reducir la latencia absoluta de cada módulo de algoritmo.
Módulo de algoritmo de procesamiento paralelo para encontrar el camino más corto para lograr la entrega de datos.
Integrar módulos de algoritmo para acortar el enlace de entrega de datos.
2. Algoritmo
La cadena de tecnología de interacción de voz contiene muchos módulos. Imagínese si cada módulo de algoritmo tiene un retraso de decenas de milisegundos, entonces el retraso acumulado puede ser de cientos de milisegundos. . Demora. Por tanto, para mejorar la velocidad de la interacción de voz, es fundamental optimizar y pulir cada módulo de algoritmo. Para los ingenieros de algoritmos que trabajan en la implementación de productos, la pregunta fundamental a la que nos enfrentamos es: cómo optimizar el algoritmo para aumentar la velocidad tanto como sea posible sin reducir el rendimiento del algoritmo ni aumentar el uso de la potencia informática (CPU/NPU). Convertirse en un bailarín dando vueltas con grilletes en la punta de un cuchillo puede ser el requisito más alto para los ingenieros de algoritmos que fabrican productos. La optimización de los módulos de algoritmos no solo está estrechamente relacionada con la experiencia del producto, sino que los algoritmos optimizados también pueden reducir directamente los costos de hardware. En la cadena de tecnología de voz, hay varios módulos que tienen un impacto intuitivo en la velocidad de la interacción de voz:
Procesamiento de señales: incluye tres módulos de algoritmos centrales de aec, separación y reducción de ruido, además del sonido. posicionamiento de zona, aislamiento vocal, etc.
VAD: el retraso del algoritmo VAD en sí es generalmente pequeño y la estrategia de posprocesamiento del núcleo provocará un retraso relativamente grande. Esto está relacionado con el diseño del producto y requiere una compensación entre retrasos pequeños. y buena experiencia.
ASR: introduce retrasos en algunos de los datos que deben acumularse para la puntuación del modelo, dependencia de información futura, algoritmos máximos como la frustración de CTC, estrategias de búsqueda de poda, etc.
3. Sistema y hardware
El hardware es la base y el sistema es el soporte. Un sistema subyacente fluido es una condición necesaria para obtener excelentes productos de software. El sistema de interacción de voz no sólo depende del hardware y los sistemas, sino que también controla el hardware o los sistemas del cuerpo en sí. Si el propio sistema del vehículo es propenso a retrasarse, no importa qué tan bien esté optimizado el algoritmo de interacción de voz, no ayudará. El hardware y los sistemas que afectan la experiencia de interacción de voz incluyen:
Hardware de grabación y controladores de grabación
Priorizar los procesos relacionados con la voz a través de políticas de asignación de recursos del sistema
Controlar el hardware del cuerpo Velocidad de respuesta
Velocidad de respuesta del sistema del vehículo
La función de diálogo definitiva del G9 reduce el retraso del control por voz de 1,5 segundos a aproximadamente 0,9 segundos.
La función de conversación ultrarrápida del G9 reduce la latencia del control de voz de 1,5 s a aproximadamente 0,9 s, lo que permite una mejora tan grande por dos razones destacadas en varios vídeos de experiencias:
Reemplazar la nube- soluciones de voz basadas en soluciones convergentes fuera de línea, eliminando el proceso de carga y descarga de datos en soluciones basadas en la nube, acortando así el tiempo de interacción.
Admite la comprensión de la transmisión, ASR y NLU se pueden procesar en paralelo, acortando el tiempo de espera de NLU.
Pero ahora, en la era 5G, ¿será realmente tan grande el retraso de la red? Con actitud escéptica, el autor realizó un análisis detallado basado en el video de la experiencia. Los datos de estos tres períodos de tiempo clave son desde el final de la voz hasta la primera palabra en la pantalla, desde el final de la voz hasta todos los resultados del reconocimiento. en la pantalla, y los resultados del reconocimiento al automóvil comienzan a responder. Según las estadísticas, se obtienen las siguientes conclusiones:
En el diálogo extremo, la primera palabra del resultado del reconocimiento se muestra en la pantalla 0,15 s. antes, pero el resultado de la primera palabra se muestra más lento y la mejora aquí es mayor. La mejora aquí puede estar relacionada con el esquema del algoritmo asr fuera de línea, en el que el retraso de la red juega un papel relativamente pequeño.
La gran mejora en el diálogo extremadamente rápido probablemente se deba a mejoras en la estrategia de posprocesamiento vad y mejoras en el algoritmo NLU fuera de línea para la comprensión de la transmisión.
Dado que el vídeo de la experiencia en línea será postprocesado, puede ser diferente de la experiencia real. Por tanto, haremos otro análisis y corrección basándonos en la experiencia real del coche. Si está interesado en la optimización de la velocidad, puede consultar el análisis en el apéndice.
Conversación a tiempo completo
La conversación a tiempo completo es un modelo de interacción disruptivo que rompe la tradición de que los sistemas de interacción por voz deben tener palabras de activación desde el lanzamiento de Siri en el iPhone 4s. Según el desarrollo de la lógica de interacción de voz, la evolución del diálogo a tiempo completo se puede derivar de dos direcciones. Su esencia es mejorar la eficiencia de la interacción, haciendo que la interacción de voz entre humanos y computadoras sea más natural y conveniente, y más acorde con el. lógica del diálogo de persona a persona.
Figura 4 La evolución del diálogo a tiempo completo
Como todos sabemos, la palabra de activación equivale al interruptor del sistema de voz. Cuando se enciende, comienza la grabación. y cuando se apaga, la grabación se detiene. Al eliminar la palabra de activación de las conversaciones de tiempo completo, el sistema de reconocimiento de voz debe poder grabar todo el tiempo. Perder el control del interruptor significa que los problemas de privacidad y seguridad del sistema de interacción de voz atraerán más atención. Para tener una función de diálogo a tiempo completo, debes realizar los siguientes aspectos:
1. Utilizar programas de voz sin conexión
Los programas de voz sin conexión tienen las siguientes ventajas:
Todos los datos se procesan localmente para proteger la privacidad del usuario. Los datos aquí no son solo datos de voz que contienen características biométricas, sino que el contenido del texto del reconocimiento de voz también contiene una gran cantidad de privacidad del usuario.
No es necesario subir los datos a la nube, ahorrando así costes de tráfico.
Todo el trabajo se realiza localmente, ahorrando el coste de los servicios en la nube.
La completa solución de voz sin conexión del G9 proporciona la posibilidad de realizar funciones de conversación a tiempo completo.
2. Haga un buen trabajo de separación y aislamiento de voces.
El objetivo de la separación de voces es separar a la persona objetivo de las voces de otras personas. elimine los sonidos que no son el objetivo y solo envíe el sonido de destino al motor de reconocimiento de voz para su reconocimiento.
G9 adopta una configuración de hardware distribuida de cuatro micrófonos, lo que reduce la dificultad de separación y aislamiento de voz en términos de hardware. Sin embargo, el algoritmo aún necesita trabajar duro para hacer bien estos dos aspectos, especialmente para abordar el problema de fuga cuando otras posiciones hablan cuando la posición objetivo no habla.
3. Haga un buen trabajo en el control de falsos positivos
El control de falsos positivos es la parte más difícil y crítica del diálogo a tiempo completo. Determina directamente la experiencia del usuario de todo el mundo. Función de diálogo de tiempo. Los estudiantes que realizan trabajos de voz deben saber que el despertar de voz también tiene falsos positivos. De los casos graves que todo practicante de despertar de voz tiene que resolver, el 80% puede optimizarse para falsos positivos. Las falsas alarmas del diálogo permanente y el despertador por voz son esencialmente el sistema del vehículo que responde erróneamente a voces a las que no debería responder. Sin embargo, las falsas alarmas conversacionales de tiempo completo son muy diferentes de las falsas alarmas del despertador. Primero, los falsos positivos afectan a los usuarios de manera diferente. La palabra de activación es solo un interruptor, y cuando ocurre una falsa alarma, lo único que sucede es que Little P responde y se gira para mirarte. Pero cada palabra en el cuadro de diálogo de tiempo completo es un comando controlado por voz con acciones reales. Imagina que estás conduciendo un coche en un día lluvioso, hablando con tu esposa por teléfono, diciéndole que hay un atasco en la carretera y que llegas tarde a casa, cuando el techo corredizo se abre inexplicablemente. En este momento, ¿se quejará? Si sabe que es un diálogo de tiempo completo, definitivamente lo cerrará de inmediato y no lo abrirá. Si no sabe que es una falsa alarma de diálogo de tiempo completo, es posible que lo esté. Confundido la primera vez y probablemente tendrás que ir a una tienda 4S la segunda vez.
En segundo lugar, las falsas alarmas varían en frecuencia y dificultad de control. La palabra de activación es una determinada palabra de cuatro palabras y el objetivo es relativamente seguro. Sin embargo, todavía es muy difícil controlar las falsas alarmas. Es muy difícil manejar solo una palabra determinada, sin mencionar que hay cientos. de puntos de función en un diálogo de tiempo completo, y hay miles de ellos. Este tipo de falsa alarma también existirá en el monitoreo retrasado actual, pero dado que el monitoreo retrasado generalmente es de solo unas pocas docenas de segundos, la posibilidad de falsas alarmas en la dimensión del tiempo se ha comprimido en gran medida, por lo que en el monitoreo retrasado, las falsas alarmas La posibilidad es todavía relativamente alto. Los falsos positivos en conversaciones a tiempo completo se pueden dividir en dos categorías. La primera categoría son los comandos mal reconocidos debido a errores algorítmicos, como asr que reconoce voz irrelevante como un comando válido o nlu que analiza texto irrelevante como un comando válido. La mejor manera de resolver este problema es mejorar infinitamente el rendimiento del algoritmo mientras detecta y bloquea estos comandos erróneos mediante algunas estrategias. El segundo tipo de problema es la diferencia entre el diálogo hombre-máquina y el diálogo hombre-humano. Por ejemplo, una determinada frase que mencionaste mientras charlabas con un amigo es una instrucción que puede desencadenar la acción del propio coche, pero en realidad estás charlando con tu amigo, no dándole instrucciones al coche. Este tipo de preguntas pueden ser las más difíciles de abordar en cualquier conversación a tiempo completo.
4. Evite una sensación de fragmentación en la experiencia del usuario
Desde la perspectiva del diseño de seguridad y la madurez de la tecnología actual, durante mucho tiempo, los puntos de función respaldados por el diálogo a tiempo completo son solo todos los puntos de función de voz Un subconjunto, lo que aumentará el costo de aprendizaje del usuario, porque el usuario no sabe qué funciones son compatibles y cuáles no, lo que provocará una sensación de fragmentación en la experiencia del usuario. Creo que el Xpeng G9 maneja este problema muy bien, y los productos e ingenieros de Xpeng lo resuelven elegantemente con estela trasera. Personalmente, supongo que la "pequeña P" en la parte posterior debería implementarse usando asr, en lugar de crear específicamente un sistema de activación de dos palabras. Me enteré de que, además del G9, hay otros dos coches que admiten conversaciones a tiempo completo. El primer modelo es el Xingyue L de Geely. Está configurado en modo geek en el sistema y puede permitir el diálogo a tiempo completo. Sin embargo, la experiencia de uso de este auto es muy mala y básicamente es inservible porque una vez encendido, cualquier palabra activará la función de voz. El segundo modelo es Chery Tiggo 8 pro. El sistema tiene una función de diálogo de tiempo completo de forma predeterminada, lo que se denomina función de despertador gratuito de tiempo completo en las promociones de automóviles. Este programa, proporcionado por Horizon, es el primer sistema de diálogo a tiempo completo de la industria basado en un programa completamente fuera de línea, y también es el sistema de diálogo a tiempo completo con la mejor experiencia actualmente en el mercado. Esperamos experimentar la función de conversación a tiempo completo del G9 lo antes posible. También esperamos que el G9 pueda ponerse al día y promover aún más el desarrollo de la función de conversación a tiempo completo.
Conversación entre varias personas
La función de conversación entre varias personas del G9 tiene principalmente dos puntos: primero, las personas en diferentes ubicaciones pueden usar la voz al mismo tiempo, independientemente unas de otras, sin interferir entre sí; las conversaciones entre personas se pueden heredar entre sí. Técnicamente hablando, el diálogo multijugador es más simple que el diálogo extremo y el diálogo de tiempo completo.
1. Función de uso paralelo de varias personas
Para realizar la función de uso paralelo de varias personas, debemos hacer dos cosas. El primer punto son las potentes capacidades de procesamiento de señales, especialmente la capacidad de separar y aislar voces humanas. Actualmente, la solución de señalización frontal basada en cuatro micrófonos distribuidos es relativamente madura y tiene mejores soluciones, pero también existen algunos escenarios difíciles que requieren Continuar. para abrirse paso. El segundo punto es que tiene una gran potencia informática y puede admitir la concurrencia de sistemas de interacción de voz de cuatro vías. Su núcleo es la concurrencia de ASR de cuatro vías y NLU de cuatro vías.
2. Función de diálogo multipersona y de múltiples rondas
El núcleo de esta función es llevar a cabo la herencia de estado de múltiples rondas en áreas de múltiples voces. Gestión del diálogo y hay buenas soluciones en la industria.
Resumen
Basado en el vídeo de la experiencia, resumí las dos lógicas de interacción en G9. (Solo una suposición personal)
Figura 5 Diagrama lógico del módulo de algoritmo interno para que "Hello Little P" inicie la interacción de voz
Figura 6 Diagrama lógico del módulo de algoritmo interno para completo Interacción de voz con diálogo en tiempo
El lanzamiento de Xpeng P7 ha llevado los asistentes de voz en el automóvil a un nuevo nivel, convirtiéndose en el equipo estándar perseguido por muchos fabricantes de automóviles.
Se espera que G9 pueda llevar la voz en el vehículo a un nuevo nivel, brindar más comodidad a los usuarios y crear más oportunidades y espacio de desarrollo para muchos profesionales de la voz. En última instancia, espero experimentar todas las capacidades del G9 lo antes posible.
Apéndice: Análisis de latencia
En el vídeo de la experiencia, el autor eligió el ejemplo de "abrir una ventana" y analizó la pantalla del vídeo para comparar el estado del texto en la pantalla y los comandos en voz y video. El estado de ejecución analiza los puntos de tiempo de cada evento clave.
Figura 2-1 Cerrar el cuadro de diálogo de alta velocidad, los puntos de tiempo de cada evento clave
Figura 2-2 Abrir el cuadro de diálogo de alta velocidad, y los puntos de tiempo de cada evento clave
Según el reconocimiento de los resultados del evento de pantalla, el retraso de la interacción de voz se puede dividir aproximadamente en dos partes: TD1 y TD2. Para obtener definiciones y explicaciones detalladas de cada parte, consulte la tabla. . Además, dado que los resultados del discurso en la pantalla en tiempo real también afectan los sentimientos del usuario, el final del discurso hasta la primera palabra mostrada en la pantalla se registra como TD3.
La descripción del módulo de nombre contiene el análisis del módulo diálogo de límite cerrado diálogo de límite abierto (proporción mejorada)
La pantalla de resultados de reconocimiento TD1 retrasa el tiempo desde el final del discurso hasta la visualización en pantalla del comando completo texto 1. Retraso de grabación; 2. Retraso en el procesamiento de la señal frontal; 3. Retraso del algoritmo VAD; 4. Retraso en la transmisión de la red de datos (solución basada en la nube); 0.608s (9.732s ~ 10.340s) 0.467s (23.2) (21.0s ~ 21.467s)
TD2 El retraso desde el texto hasta la ejecución de las instrucciones es desde que se muestra el texto completo de las instrucciones en la pantalla hasta que el automóvil arranca para ejecutar el tiempo del texto de instrucción. 0,947 s (10,340 s ~ 11,287 s) 0,407 s (57,0) (21,467 s ~ 21,874 s)
El retraso de la primera palabra del resultado de reconocimiento TD3 desde el final del discurso hasta el primer texto de instrucción que aparece en la pantalla 1. Retraso de grabación; 2. Retraso en el procesamiento de la señal frontal; 3. Retraso del algoritmo vad (retraso de acumulación de datos); 4. Retraso en la transmisión de la red de datos (solución basada en la nube); 0,335 s (9,732 s ~ 10,067 s) 0,367 s (-9,5) (21,0 s ~ 21,367 s)
Nota: solo utiliza el significado de referencia del habla general y se necesitan ciertos datos para demostrar su eficacia. . Con base en los resultados estadísticos, especulamos las razones del aumento en la velocidad del diálogo extremo:
Si el módulo tendrá instrucciones de optimización en el diálogo extremo
El retraso de grabación se registra en en la parte inferior, y debería ser antes y después de abrir el diálogo extremo Sin cambios
El procesamiento de la señal de retardo en sí se ejecuta en el lado del terminal y no hay ningún cambio estimado
algoritmo vad retraso El algoritmo vad en sí se ejecuta en el lado del terminal y no hay ningún cambio estimado
retraso del algoritmo vad. No se espera que el algoritmo vad que se ejecuta en el lado del terminal cambie la acumulación de datos de puntuación del modelo vad, la dependencia de información futura, etc.
La latencia de ASR cambiará y es probable que la mejora de TD1 esté relacionada a la solución del algoritmo ASR fuera de línea. Por un lado, es optimización a nivel de modelo y, por otro lado, el espacio de búsqueda en sí es pequeño y la velocidad de decodificación será más rápida. Acumulación de datos de puntuación del modelo ASR, dependencia de información futura, retraso de decodificación, flashback de CTC, etc.
Según los resultados de TD3, el retraso en la transmisión de la red parece tener poco impacto en la carga de datos de voz y la descarga de resultados de reconocimiento. en la solución en la nube
El retraso de la estrategia de posprocesamiento de vad tiene un impacto relativamente grande. El posprocesamiento de Vad generalmente se extenderá hacia atrás durante un cierto período de tiempo según la salida del algoritmo truncando las instrucciones de control de voz por adelantado.
Retraso del algoritmo nlu Para el comando "abrir ventana", en teoría, independientemente En teoría, la probabilidad de implementar el motor de reglas en el extremo de la nube no es muy diferente, y el impacto de los dos en la velocidad debería ser muy pequeño.
Se mejorará la capacidad de comprender la semántica de la transmisión
Los retrasos del sistema, como la decodificación de instrucciones y el inicio del hardware, no cambiarán, y no habrá diferencias a nivel de hardware y sistema p>
Durante el proceso de interacción de voz tradicional, para garantizar que el reconocimiento de voz no se trunque de antemano (por ejemplo, el usuario hace una pausa al hablar, o el algoritmo vad no es robusto, etc.), el reconocimiento de voz La función se agregará a vad. Generalmente, la salida del algoritmo se extiende hacia atrás durante un cierto período de tiempo, lo que introducirá una gran demora en muchos escenarios. Como se muestra en la figura siguiente, aunque el resultado del reconocimiento completo se obtiene en el momento t3, dado que el segmento vad no está decodificado, no se enviará a nlu para análisis de texto. El resultado de asr no se entregará a nlu para análisis hasta. tiempo t4. Después de introducir la comprensión semántica de transmisión, el texto reconocido de asr se envía a nlu en tiempo real para su análisis. Ya sea que continúe esperando la confirmación del resultado en el momento t4 o lo use directamente, el resultado del análisis de nlu se puede obtener en el momento t7. El resultado en el momento t7, el retraso se reducirá considerablemente. De hecho, lo interesante es que cuando la voz ultrarrápida no está activada, en realidad se necesitan 0,947 segundos de t3 a t6. Suponiendo que el posprocesamiento VAD del sistema se extiende hacia atrás en 0,6 segundos y la ejecución del hardware consume 0,1 segundos. , entonces la parte nlu en realidad consume 0,247 s para el simple comando "abrir ventana del coche". Es increíble. Todo lo que puedo decir es que las enormes mejoras se deben a la generación anterior de productos.