Muestre su yo perfecto El algoritmo de IA de NVIDIA mejora la experiencia de videoconferencia
Afectada por la epidemia de COVID-19, la demanda de oficinas móviles entre empresas de diversas industrias se ha acelerado. Durante este período, un gran número de usuarios y empresas han optado por las videoconferencias en línea. Entonces, ¿cómo podemos mostrar una versión más perfecta de nosotros mismos en las videoconferencias?
Recientemente se celebró oficialmente la Conferencia Internacional 2021 sobre Visión por Computador y Reconocimiento de Patrones (CVPR 2021). El SDK de transmisión de video con IA en la nube de NVIDIA Maxine basado en la investigación de GAN ahora se exhibe en CVPR 2021. Echemos un vistazo a cómo la investigación de GAN está remodelando las videoconferencias.
Levántate, enciende tu computadora portátil, enciende tu cámara web y luce lo mejor posible en las videollamadas en todo momento gracias a la tecnología de inteligencia artificial desarrollada por los investigadores de NVIDIA.
Vid2Vid Cameo es uno de los modelos de aprendizaje profundo detrás del SDK de NVIDIA Maxine para videoconferencias. Utiliza una red generativa adversaria (GAN) para sintetizar rostros realistas utilizando solo una imagen 2D de una persona hablando.
Para utilizar el modelo, los participantes deben enviar una imagen de referencia (ya sea una foto real o un avatar de dibujos animados) antes de unirse a la videollamada. Durante la reunión, el modelo de IA capturará los movimientos en tiempo real de cada persona y los aplicará a imágenes estáticas cargadas previamente.
En otras palabras, después de subir una foto de una persona vestida formalmente, incluso si el participante tiene el cabello desordenado y está en pijama, aún puede aparecer en la llamada vestido apropiadamente para el trabajo, porque la IA puede mapear la cara del usuario. Las acciones se asignan a fotografías de referencia. Si el sujeto se gira hacia la izquierda, la tecnología puede ajustar la perspectiva para que parezca que el participante está mirando directamente a la cámara.
Además de ayudar a los asistentes a rendir al máximo, esta tecnología de IA también puede reducir 10 veces el ancho de banda necesario para las videoconferencias, eliminando la fluctuación y la latencia. Pronto estará disponible como AI Face Codec en el SDK de NVIDIA Video Codec.
Ming-Yu Liu, investigador de NVIDIA y cocreador del proyecto, afirmó: "Muchas personas tienen un ancho de banda de Internet limitado pero aun así desean realizar videollamadas fluidas con amigos y familiares. Esta tecnología fundamental puede proporcionar además de Al ser útiles, también se pueden utilizar para ayudar a los animadores, editores de fotografías y desarrolladores de juegos en su trabajo".
Vid2Vid Cameo se presentó esta semana en la prestigiosa Conferencia Internacional sobre Visión por Computador y Reconocimiento de Patrones, una presentación de NVIDIA. Uno de los 28 artículos presentados en esta conferencia virtual. Además, se lanza en AI Playground, donde todos pueden experimentar de primera mano nuestras demostraciones de investigación.
La IA se roba el show
En un guiño a una película clásica de atracos (y un exitoso programa de Netflix), los investigadores de NVIDIA rápidamente pusieron a trabajar su modelo GAN que habla caras en realidad virtual. . La demostración destaca las características principales de Vid2Vid Cameo, incluida la reorientación facial, avatares animados y compresión de datos.
Estas funciones pronto estarán disponibles en el SDK de NVIDIA Maxine, proporcionando a los desarrolladores modelos optimizados previamente entrenados para implementar efectos de vídeo, audio y realidad aumentada en videoconferencias y transmisiones en vivo.
Los desarrolladores ya pueden utilizar los efectos de Maxine AI, incluida la eliminación inteligente de ruido, el muestreo de vídeo y la estimación de la pose humana. El SDK se puede descargar gratis y se puede utilizar con la plataforma NVIDIA Jarvis para aplicaciones de IA conversacionales, incluidas la transcripción y la traducción.
Saludos de la IA
Vid2Vid Cameo solo necesita dos elementos para crear una dinámica realista de conversación facial con IA para videoconferencias. Estos dos elementos son la apariencia de un personaje y una transmisión de video, que determinan. cómo se anima la imagen.
El modelo se desarrolla basándose en el sistema NVIDIA DGX y se entrena utilizando un conjunto de datos que contiene 180.000 vídeos de caras hablando de alta calidad. La red ha dominado la identificación de 20 puntos clave que se pueden utilizar para modelar movimientos faciales sin anotaciones humanas.
Estos puntos codifican la ubicación de características que incluyen ojos, boca y nariz.
Luego extrae estos puntos clave de la imagen de referencia del líder de la llamada, que puede enviarse a otros participantes de la videoconferencia con anticipación o reutilizarse en reuniones anteriores. De esta manera, la plataforma de videoconferencia solo necesita enviar datos de movimiento de puntos clave en la cara del orador, sin tener que enviar una gran cantidad de transmisiones de video en vivo de un participante a otros.
En el lado del receptor, el modelo GAN utiliza esta información para simular la apariencia de la imagen de referencia para sintetizar un vídeo.
Al comprimir y enviar solo las posiciones de la cabeza y los puntos clave de un lado a otro, en lugar de la transmisión de vídeo completa, esta tecnología reduce 10 veces el ancho de banda necesario para las videoconferencias, lo que proporciona una experiencia de usuario más fluida. El modelo se puede ajustar para transmitir diferentes números de puntos clave para adaptarse a diferentes entornos de ancho de banda sin afectar la calidad visual.
Además, la perspectiva del vídeo generado con la cara hablando se puede ajustar libremente, mostrando al usuario desde un perfil lateral o en ángulo recto, o desde un ángulo de cámara superior o inferior. Los editores de fotografías que trabajan con imágenes fijas también pueden utilizar esta función.
Los investigadores de NVIDIA descubrieron que Vid2Vid Cameo produce imágenes más realistas y claras, ya sea que la imagen de referencia y el vídeo sean de la misma persona, o que la IA sea responsable de transferir los movimientos de una persona a la imagen de referencia de otra. Resultados, superan a los modelos de última generación.
Esta última característica se puede utilizar para aplicar los movimientos faciales del hablante a la animación de avatar digital en videoconferencias, o incluso para crear imágenes y movimientos realistas de videojuegos o personajes de dibujos animados.
Los investigadores de NVIDIA Ting-Chun Wang, Arun Mallya y Ming-Yu Liu*** fueron coautores del artículo de Vid2Vid Cameo. El equipo de investigación de NVIDIA cuenta con más de 200 científicos en todo el mundo y se centra en áreas como la inteligencia artificial, la visión por computadora, los vehículos autónomos, la robótica y los gráficos.
Nos gustaría agradecer al actor Edan Moses, que da voz al profesor en inglés en House of Cards de Netflix, por su contribución en el vídeo anterior que presenta nuestra última investigación en IA.
Escrito al final, las videoconferencias ahora se han convertido en parte de la vida diaria de las personas, ayudando a millones de personas a trabajar, estudiar, entretenerse e incluso buscar tratamiento médico. NVIDIA Maxine integra capacidades avanzadas de video, audio e inteligencia artificial conversacional para brindar avances en eficiencia a las plataformas de videoconferencia que nos ayudan a mantenernos conectados. (Tao Ran)