¿Cuál es la historia del desarrollo del reconocimiento facial?
La primera etapa (1964 ~1990)
En esta etapa, el reconocimiento facial generalmente solo se estudia como un patrón general. problema de reconocimiento, utilizando La principal solución técnica es un método basado en rasgos geométricos faciales. Esto se refleja principalmente en la investigación popular sobre los contornos laterales. La gente ha investigado mucho sobre la extracción y el análisis de las características estructurales de las curvas del contorno facial. Los investigadores han utilizado redes neuronales artificiales para el reconocimiento facial. Además de Bledsoe, hay otros investigadores que han participado anteriormente en investigaciones sobre AFR, como Goldstein, Harmon y Kinderwulf. Takeo Kane completó su primera tesis doctoral sobre AFR en 1973 en la Universidad de Kyoto. Hasta ahora, como profesor del Instituto de Robótica de la Universidad Carnegie Mellon (CMU), sigue siendo una de las figuras activas en el campo del reconocimiento facial. Su grupo de investigación también es una fuerza importante en el campo del reconocimiento facial. En términos generales, esta etapa es la etapa inicial de la investigación sobre reconocimiento facial. No hay muchos resultados muy importantes y básicamente no se ha aplicado en la práctica.
La segunda fase (1991~1997)
Aunque esta fase es relativamente corta, es el clímax de la investigación del reconocimiento facial y se puede decir que es fructífera: no solo algunas caras representativas algoritmo de reconocimiento, y el ejército de EE. UU. también organizó la famosa prueba del algoritmo de reconocimiento facial FERET, y han surgido varios sistemas de reconocimiento facial operados comercialmente, como el sistema FaceIt de Visionics (ahora Identix) más famoso.
El método "eigenface" propuesto por Turk y Pentland del Laboratorio de Medios del Instituto Tecnológico de Massachusetts (MIT) es sin duda el método de reconocimiento facial más famoso durante este período. Muchas tecnologías de reconocimiento facial posteriores están más o menos relacionadas con las caras propias. Ahora las caras propias se han convertido en el algoritmo de referencia para las pruebas de rendimiento del reconocimiento facial junto con los métodos relacionados con la normalización.
Otro trabajo importante durante este período fue el experimento comparativo realizado por Brunelli y Poggio del Laboratorio de Inteligencia Artificial del MIT alrededor de 1992. Compararon el rendimiento del reconocimiento de los métodos basados en características estructurales y los métodos basados en coincidencias de plantillas, y llegaron a una conclusión clara: los métodos basados en coincidencias de plantillas son mejores que los métodos basados en características. Esta conclusión rectora, combinada con la cara característica (cara característica), básicamente detuvo la investigación sobre métodos de reconocimiento facial basados en características estructurales y promovió en gran medida el desarrollo de la tecnología de reconocimiento de patrones estadísticos y de apariencia El desarrollo de métodos de reconocimiento facial basados en. El modelado subespacial lineal se ha convertido gradualmente en una tecnología de reconocimiento facial convencional.
El método de reconocimiento facial Fisherface propuesto por Belhumeur es otro logro importante durante este período. Primero, se utiliza el análisis de componentes principales para reducir la dimensionalidad de las características aparentes de la imagen. Sobre esta base, el método de análisis discriminante lineal (LDA) se utiliza para transformar los componentes principales después de la reducción de dimensionalidad para obtener "la mayor divergencia entre clases posible y la divergencia intraclase más pequeña posible". En la actualidad, este método sigue siendo uno de los métodos principales de reconocimiento facial y ha producido muchas variantes diferentes, como el método de espacio nulo, el modelo discriminante subespacial, el modelo discriminante mejorado, el método discriminante LDA directo y algunas mejoras recientes basadas en el aprendizaje del núcleo. . Estrategia.
Por otro lado, Moghaddam del MIT propuso un método de reconocimiento facial basado en la estimación de probabilidad bayesiana en espacio dual. Este método utiliza el "método de diferencia" para convertir el cálculo de similitud de dos pares de imágenes faciales en un problema de clasificación de dos clases (diferencia intraclase y diferencia entre clases). Tanto los datos de diferencias intraclases como entre clases deben reducirse dimensionalmente mediante tecnología de análisis de componentes principales, y se debe calcular la densidad de probabilidad condicional de los dos tipos de datos. Finalmente, el reconocimiento facial se realiza mediante la toma de decisiones bayesiana (máxima probabilidad o máxima probabilidad posterior).
En esta etapa también se propuso la coincidencia de gráficos elásticos (EGM), otro método importante en el reconocimiento facial.
La idea básica es utilizar gráficos de atributos para describir caras: los vértices del gráfico de atributos representan puntos característicos clave de la cara, y sus atributos son características locales multidireccionales de resolución múltiple en los puntos característicos correspondientes - Transformada de Gabor [12] , llamado Bordes de chorro. El atributo de es la relación geométrica entre diferentes puntos característicos. Para cualquier imagen de cara de entrada, la coincidencia de gráficos elásticos utiliza una estrategia de búsqueda optimizada para localizar algunos puntos de características de cara clave predefinidos, mientras extrae sus características Jet para obtener el mapa de atributos de la imagen de entrada. Finalmente, el proceso de reconocimiento se completa calculando la similitud con el mapa de atributos de la cara conocida. La ventaja de este método es que no sólo conserva las características estructurales globales de la cara, sino que también modela las características locales clave de la cara. Recientemente, ha habido algunas extensiones de este enfoque.
La tecnología de análisis de características locales fue propuesta por Atick et al. de la Universidad Rockefeller. En esencia, LFA es un método de descripción de objetos de baja dimensión basado en estadísticas. En comparación con PCA, que solo puede extraer características globales pero no puede mantener la topología local, LFA puede extraer características locales basadas en la descripción de PCA global mientras mantiene información de topología global, por lo que tiene mejores capacidades de descripción y discriminación. La tecnología LFA se ha comercializado como el famoso sistema FaceIt, por lo que no se han publicado nuevos avances académicos en el período posterior.
El proyecto FERET, financiado por la Oficina del Programa de Desarrollo de Tecnología Antinarcóticos del Departamento de Defensa de Estados Unidos, es sin duda un evento crucial en esta etapa. El objetivo del proyecto FERET es desarrollar tecnología AFR que pueda ser utilizada por agencias de seguridad, inteligencia y aplicación de la ley. El proyecto consta de tres partes: financiar múltiples estudios de reconocimiento facial, crear una base de datos de imágenes faciales FERET y organizar la evaluación del desempeño del reconocimiento facial FERET. El proyecto organizó tres evaluaciones de reconocimiento facial en 1994, 1995 y 1996. Varios de los algoritmos de reconocimiento facial más famosos participaron en la prueba, lo que promovió en gran medida la mejora y la practicidad de estos algoritmos. Otra contribución importante de esta prueba es proporcionar una dirección de desarrollo adicional del reconocimiento facial: el reconocimiento facial en condiciones de adquisición no ideales, como la iluminación y la postura, se ha convertido gradualmente en una dirección de investigación popular.
Los modelos flexibles, incluidos Active Shape Model (ASM) y Active Appearance Model (AAM), fueron contribuciones importantes al modelado facial durante este período. ASM/AAM describe la cara como dos partes independientes, forma 2D y textura, que se modelan usando métodos estadísticos (PCA) respectivamente, y luego las integran usando PCA para modelar estadísticamente la cara. El modelo flexible tiene buenas capacidades de síntesis de rostros y la tecnología de análisis de imágenes basada en síntesis se puede utilizar para la extracción de características y el modelado de imágenes de rostros. Los modelos flexibles se han utilizado ampliamente en la alineación y el reconocimiento de rostros, y han surgido muchos modelos mejorados.
En general, la tecnología de reconocimiento facial se está desarrollando muy rápidamente en esta etapa y el algoritmo propuesto ha logrado muy buen rendimiento en términos de condiciones ideales de adquisición de imágenes, coordinación de objetos y bases de datos de rostros frontales pequeños y medianos. Como resultado, han surgido varias empresas comerciales de reconocimiento facial conocidas. Desde la perspectiva de las soluciones técnicas, el análisis discriminante subespacial lineal, los modelos estadísticos de apariencia y los métodos estadísticos de reconocimiento de patrones de imágenes faciales 2D son las tecnologías principales en esta etapa.
La tercera fase (1998 ~ presente)
La evaluación del algoritmo de reconocimiento facial FERET'96 muestra que la tecnología de reconocimiento facial convencional tiene problemas causados por condiciones de adquisición no ideales u objetos descoordinados. No es resistente a los cambios de iluminación y pose. Por lo tanto, los problemas de iluminación y postura se han convertido gradualmente en un tema de investigación. Al mismo tiempo, también se han desarrollado sistemas comerciales de reconocimiento facial. Por lo tanto, basándose en la prueba FERET, el ejército estadounidense organizó dos evaluaciones de sistemas comerciales en 2000 y 2002.
El método de reconocimiento facial de múltiples poses e iluminación basado en el modelo de cono de iluminación propuesto por Georghiades et al. Llegaron a una conclusión importante: todas las imágenes de la misma cara, desde el mismo ángulo de visión y bajo diferentes condiciones de iluminación, forman en el espacio de la imagen un cono convexo, es decir, el cono de iluminación. Para calcular el cono de iluminación a partir de una pequeña cantidad de imágenes faciales con condiciones de iluminación desconocidas, también ampliaron el método tradicional de visión estéreo fotométrica, que puede restaurar la imagen tridimensional del objeto tridimensional basándose en siete imágenes desconocidas con la misma iluminación. condiciones bajo el supuesto del modelo de Lambert Coeficientes de reflexión superficial de formas y puntos de superficie, superficies convexas y fuentes de luz distantes (la visión estéreo fotométrica tradicional puede recuperar la dirección vectorial normal de la superficie del objeto basándose en tres imágenes dadas de condiciones de iluminación conocidas), facilitando así sintetizar cualquier iluminación desde esa perspectiva. La imagen de la condición completa el cálculo del cono de luz.
El reconocimiento se logra calculando la distancia desde la imagen de entrada hasta cada cono de iluminación.
Durante este período, la teoría del aprendizaje estadístico representada por máquinas de vectores de soporte también se aplicó al reconocimiento y confirmación de rostros. La máquina de vectores de soporte es un clasificador de dos clases, mientras que el reconocimiento facial es un problema de varias clases. Por lo general, existen tres estrategias para resolver este problema, a saber: método de diferencia intraclase/diferencia entre clases, método uno a muchos y método uno a uno.
El método de análisis y reconocimiento de imágenes faciales basado en el modelo de deformación tridimensional propuesto por Brands y Vetter es un trabajo pionero en esta etapa. Este enfoque es esencialmente una técnica de análisis basada en síntesis. Su principal contribución radica en el modelo de deformación estadística basado en formas y texturas tridimensionales (similar a 2D AAM). Al mismo tiempo, utiliza métodos de simulación gráfica para modelar los parámetros del modelo de iluminación y proyección en perspectiva en el proceso de adquisición de imágenes. que los atributos internos del rostro, como la forma y la textura del rostro, estén completamente separados de los parámetros externos, como la configuración de la cámara y la iluminación, lo que favorece más el análisis y el reconocimiento de las imágenes del rostro. Los experimentos de Blanz muestran que este método logra una alta tasa de reconocimiento en la base de datos de rostros CMU-Pai (Postura, iluminación y expresión múltiples) y en la base de datos de rostros de múltiples poses FERET, lo que demuestra la eficacia de este método.
En la Conferencia Internacional sobre Visión por Computador (ICCV) de 2001, los investigadores Viola y Jones del Instituto de Investigación Compaq demostraron su sistema de detección de rostros en tiempo real basado en características rectangulares simples y AdaBoost, que detecta la velocidad de un rostro casi frontal en Formato CIF Alcanzando más de 15 fotogramas por segundo. Las principales contribuciones de este método incluyen: 1) usar características rectangulares simples que se pueden calcular rápidamente como características de imágenes faciales; 2) combinar una gran cantidad de clasificadores débiles basados en AdaBoost para formar un método de aprendizaje de clasificadores sólido; 3) mejorar el uso de tecnología en cascada; velocidad de detección. En la actualidad, esta estrategia de aprendizaje facial/no facial ha podido lograr la detección y el seguimiento de rostros de múltiples poses en tiempo casi real. Esto proporciona una buena base para el reconocimiento facial de fondo.
Shashua propuso una tecnología de representación y reconocimiento de imágenes faciales basada en un mapa empresarial [13] en 2001. Esta tecnología es una tecnología de renderizado basada en el aprendizaje de conjuntos de imágenes de objetos específicos. Puede sintetizar imágenes sintéticas de cualquier imagen facial de entrada en diversas condiciones de iluminación en función de una pequeña cantidad de imágenes con diferentes condiciones de iluminación en el conjunto de entrenamiento. En base a esto, Shasuha et al. también dieron la definición de imagen de firma facial con iluminación constante, que puede usarse para el reconocimiento facial con iluminación constante. Los experimentos han demostrado su eficacia.
Basri y Jacobs utilizaron armónicos esféricos para representar la iluminación y utilizaron un proceso de convolución para describir la reflexión de Lambert. Analíticamente demostraron una conclusión importante: el conjunto de todas las funciones de reflexión de Lambert obtenidas de cualquier fuente de luz distante forma una línea lineal. subunidad. Esto significa que el conjunto de imágenes de un objeto de superficie lambertiana convexa en diversas condiciones de iluminación puede aproximarse mediante un subespacio lineal de baja dimensión. Esto no solo es consistente con los resultados experimentales empíricos de métodos de modelado estadístico de iluminación anteriores, sino que también promueve teóricamente el desarrollo de métodos de reconocimiento de objetivos subespaciales lineales. También permite utilizar métodos de optimización convexa para forzar que la función de iluminación no sea negativa, lo que proporciona una idea importante para resolver problemas de iluminación.
Tras el proyecto FERET surgieron varios sistemas comerciales de reconocimiento facial. Los departamentos pertinentes del Departamento de Defensa de EE. UU. han organizado evaluaciones FRVT sobre sistemas comerciales de reconocimiento facial y hasta ahora han realizado dos evaluaciones: FRVT2000 y FRVT2002. Por un lado, estas dos pruebas comparan el rendimiento de sistemas de reconocimiento facial conocidos. Por ejemplo, la prueba FRVT2002 muestra que Cognitec, Identix y Eyematic están muy por delante de otros sistemas, pero no hay mucha diferencia entre ellos. Por otro lado, se ofrece un resumen completo del estado de desarrollo de la tecnología de reconocimiento facial: en condiciones ideales (foto de visa frontal), la tasa de reconocimiento facial preferida más alta es del 73%, y la tasa de error igual de verificación facial (EER [14]) Para 37.437 personas, 1.589 imágenes. Otra contribución importante de la prueba FRVT es que señala algunos problemas que deben resolverse urgentemente en los algoritmos de reconocimiento facial actuales. Por ejemplo, la prueba de FRVT2002 muestra que el rendimiento de los sistemas comerciales de reconocimiento facial actuales sigue siendo muy sensible a los cambios de iluminación interior y exterior, la postura, el lapso de tiempo y otras condiciones cambiantes, y el problema del reconocimiento efectivo en bases de datos faciales a gran escala es también muy grave. Estas cuestiones aún requieren mayores esfuerzos.
En general, en condiciones de imagen no ideales (especialmente iluminación y postura) y cuando los objetos no están coordinados, el problema del reconocimiento facial en bases de datos faciales a gran escala se ha convertido gradualmente en un tema candente.
Métodos de modelado no lineal, teoría del aprendizaje estadístico, tecnología de aprendizaje basada en Boosting [15], métodos de reconocimiento y modelado de rostros basados en modelos 3D, etc. Poco a poco se ha convertido en una tendencia de desarrollo tecnológico.
En resumen, el reconocimiento facial es un tema de investigación que tiene valor de investigación científica y amplias perspectivas de aplicación. Un gran número de investigadores internacionales han logrado resultados de investigación fructíferos durante décadas y la tecnología de reconocimiento facial automático se ha aplicado con éxito bajo ciertas restricciones. Estos resultados profundizan nuestra comprensión del problema del reconocimiento facial automático, especialmente sus desafíos. Aunque el sistema de reconocimiento automático de rostros existente puede haber superado a los humanos en la velocidad de comparación e incluso en la precisión de datos faciales masivos, para problemas generales de reconocimiento de rostros en condiciones cambiantes complejas, la robustez y precisión del sistema de reconocimiento automático de rostros La precisión es muy inferior a la de los humanos . Se desconocen las razones subyacentes de esta brecha, ya que nuestra comprensión del sistema visual humano es aún rudimentaria. Sin embargo, desde la perspectiva del reconocimiento de patrones y la visión por computadora, esto puede no solo significar que no hemos encontrado sensores efectivos para muestrear razonablemente la información facial (dadas las diferencias entre las cámaras monoculares y los sistemas binoculares humanos), sino también que hemos adoptado métodos inadecuados de Modelar rostros (representaciones internas de rostros) también puede significar que no somos conscientes de la extrema precisión que puede lograr la tecnología de reconocimiento automático de rostros. Pero en cualquier caso, dotar a los dispositivos informáticos de capacidades de reconocimiento facial similares a las humanas es el sueño de muchos investigadores en este campo. Creo que a medida que la investigación se profundiza, nuestra comprensión debería poder acercarse a las respuestas correctas a estas preguntas.