¿Cómo predecir la taquilla?
Desde 1896, cuando se presentaron las películas occidentales a Xu Yuan en Shanghai, hasta 1905, cuando China filmó la primera película nacional "Dingjun Mountain", hasta 2013, la taquilla nacional superó los 20 mil millones.
(4) La industria cinematográfica china, que tiene una historia de más de 100 años, se ha desarrollado rápidamente en los últimos años, ya sea en términos de calidad cinematográfica, construcción de salas o escala de inversión. Al mismo tiempo, con la llegada de la era del "big data", también se están produciendo cambios profundos en los grupos de espectadores, las preferencias y la psicología de los espectadores, así como en los métodos de difusión y adquisición. de información de la película.
No cabe duda de que la participación de capital diverso es un motor indispensable para el desarrollo del cine chino. Sin embargo, la industria cinematográfica es conocida por sus retornos de inversión impredecibles y la falta de herramientas de previsión de taquilla frustra a los inversores.
Debido a la incapacidad de cubrir eficazmente los riesgos de inversión, "Windtalkers", dirigida por el famoso director chino John Woo, arrastró a MGM a la quiebra. Por tanto, las empresas productoras y distribuidoras tienen que considerar todos los factores que inciden en la taquilla: Hot Mom Li Jiao.
La contribución de Lu a la taquilla de "Private Customization": por qué la taquilla de Baofeng fue mucho menor que las expectativas de su productor de medalla de oro, Jiang Zhiqiang, por qué "Fushan Spring Residence" y "Little One" fueron criticados; ¿Cómo es la "mala película" Time" un éxito de taquilla? Jackie Chan
¿Es necesario convertir Uncle's Never Give Up 2013 en 3D? Si el efecto de visualización "vengativo" de "囧囧" se puede reproducir... todo esto se puede encontrar en "big data". Debido a que todos en Internet reúnen sabiduría colectiva navegando, consultando e incluso haciendo clic, esto tendrá un "efecto mariposa" en la taquilla final de la película.
En 2013, Google publicó un documento titulado "Cuantificando la magia de las películas con la Búsqueda de Google" (5).
El documento técnico anunció su modelo de predicción de taquilla de películas, que utiliza principalmente búsquedas, datos de clics en anuncios y diseño de salas de cine para predecir la taquilla. Google anunció que las predicciones de taquilla de su modelo coincidían con las cifras reales de taquilla.
Ha alcanzado el 94%, pero aún no ha visto sus resultados de predicción pública para películas inéditas.
Con la ayuda del sistema "Deep Thinking", Sogou ha creado un modelo más complejo para predecir la taquilla nacional y publicó los resultados de predicción de taquilla de la primera semana de películas nacionales en diciembre de 2013 en Sina Weibo. por adelantado. Me alegra que los resultados previstos se acerquen tanto a los datos reales. Al mismo tiempo, nuestro modelo también se puede utilizar para analizar cuantitativamente los factores que afectan la taquilla.
?
El secreto del volumen de consultas de búsqueda
Sogou Search responde a cientos de millones de solicitudes de búsqueda todos los días. La distribución y las tendencias cambiantes de las palabras de consulta pueden reflejar los intereses y preocupaciones de los chinos. internautas. De manera similar a la investigación de Google, también descubrimos que existe una fuerte correlación entre el número de búsquedas de términos de consulta relacionados antes del estreno de una película y los ingresos de taquilla. Esto es fácil de entender. El comportamiento de búsqueda activa del usuario refleja el interés potencial del usuario en la película.
Seleccionamos los datos de taquilla y volumen de búsqueda previo al estreno de 180 películas estrenadas en China desde el 11 de enero de 2013 como conjunto de entrenamiento para entrenar un modelo de regresión lineal básico. El experimento encontró que el valor R cuadrado del modelo obtenido simplemente usando entrenamiento cuantitativo de búsqueda para predecir la correlación entre la taquilla de la primera semana y la taquilla real fue solo del 68%, lo que está muy cerca del resultado obtenido del 70%. por Google utilizando únicamente datos de búsqueda. (Nota: el valor de R cuadrado es 0.
A 1, cuanto mayor sea el valor, mejor será el efecto de predicción del modelo). Este resultado también muestra que el comportamiento de búsqueda de los usuarios chinos y estadounidenses es muy similar.
Utilizar el volumen de búsqueda para predecir la taquilla es un buen comienzo, pero la precisión está lejos de ser suficiente. Al mismo tiempo, muchos términos de búsqueda siguen siendo vagos. Por ejemplo, "Resident Evil" es a la vez una película y un juego. Si los mezclas, obtendrás entradas.
Las previsiones inmobiliarias son optimistas. Investigaciones adicionales muestran que la cantidad de consultas sobre la intención del juego es relativamente estable, pero la cantidad de consultas sobre la intención de la película tiene un pico antes del lanzamiento. El usuario también puede confirmarlo aún más a través de la URL en la que hace clic.
Intención de búsqueda. Por lo tanto, el modelo debe introducir la tendencia cambiante del volumen de consultas y la distribución de los clics de los usuarios. El modelo corregido puede alcanzar una precisión del 74%. En este momento, el modelo ya puede dar una imagen aproximada de la taquilla de la película.
Estimado.
?
Redes sociales: análisis del sentimiento de los usuarios
Los datos de las redes sociales también serán útiles en las predicciones de taquilla.
Supongamos que eres fanático de una determinada estrella y planeas ver una película protagonizada por ella, entonces es probable que envíes el Weibo relacionado con la película a tus amigos con anticipación. Ya hay países extranjeros
Muchos proyectos de predicción se basan en datos de Twitter. Aquí utilizamos principalmente datos de algunos sitios web nacionales de Weibo para hacer predicciones. Utilice tecnología de comprensión del lenguaje natural para analizar las actitudes de los usuarios hacia películas inéditas.
Las tendencias emocionales se transforman así en necesidades visuales de los usuarios. Otros factores que se pueden considerar incluyen la profundidad de los retuiteos en Weibo, la actividad de los comentarios y la tendencia cambiante en el número de Weibo relacionados a medida que se acerca la fecha de estreno de la película. Estos datos se pueden refinar efectivamente en características y agregarse al modelo.
Con la incorporación de los datos de Weibo, la tasa de precisión ha superado el 80%.
Previsión basada en medios verticales
Para medir los esfuerzos promocionales de las empresas de distribución de películas y la atención de los usuarios a la promoción, también introdujimos algunos datos de medios verticales para mejorar las capacidades de previsión. Aquí seleccionamos algunos sitios web y canales de películas conocidos para la unificación.
Incluidos sitios web de vídeos (Sohu Video, Youku Tudou, iQiyi, Tencent Video), sitios web de entretenimiento (Sohu Entertainment, Sina Entertainment, Tencent Entertainment, Phoenix Entertainment, NetEase Entertainment) y sitios web de información sobre películas.
(Douban Movies, Movie Network m1905, Time Network). La cantidad de noticias relacionadas con películas, reproducciones de avances y comentarios de usuarios en estos sitios web se pueden obtener mediante el rastreo dirigido. Todos estos son factores importantes que afectan la taquilla de las películas.
Factores relevantes. Obviamente, las películas pequeñas y medianas no pueden promocionarse a gran escala debido a la escasez de fondos, mientras que la promoción de películas a gran escala será abrumadora.
Según un análisis estadístico, la contribución de Douban Movies a la tasa de conversión de taquilla es mayor que la de otros sitios, lo que puede estar relacionado con la composición de usuarios del sitio. Después de la introducción de datos de medios verticales, la tasa de precisión aumentó del 80% al 86% y el efecto de mejora fue significativo.
Cubo de conocimiento: el arma secreta de la minería de datos
Zhicube es el primer producto de búsqueda de base de conocimiento en la industria de motores de búsqueda nacional. Introduce tecnología de comprensión semántica, integra y extrae información fragmentada de Internet y construye una base de conocimiento masiva, que incluye a todos los directores, actores y actores que necesitamos.
Información diversa sobre guionistas. Con el apoyo de los datos de Knowledge Cube, presentamos clasificaciones de popularidad para medir el atractivo de taquilla de una celebridad. El índice de popularidad resuelve perfectamente el problema de los cuellos cruzados
El problema de que el atractivo de taquilla de las películas protagonizadas por estrellas (directores) no se puede reflejar.
Por ejemplo, Jing M. Guo no ha dirigido la película "Tiny Times" antes, por lo que obviamente no es razonable calcular el atractivo de taquilla del director según el método tradicional. El índice de popularidad tiene en cuenta que Guo Jingming es un éxito de ventas.
Como guionista, su valor de índice es muy alto, lo que puede reflejar plenamente su fuerte atractivo de taquilla como nuevo director. En este caso, desde "To Youth" de Zhao Wei, hasta "Sorry" de Xu Zheng y la participación de Li Xiaolu en películas del círculo televisivo.
Ejemplos como la personalización privada son muy específicos. Con base en los datos del Knowledge Cube, es posible evaluar aproximadamente el impacto de cada actor/director en la taquilla, consultar los atributos de cada película y eliminar efectivamente los homónimos.
La ambigüedad entre pensamientos.
?
Otros factores que afectan a la taquilla.
Los factores que afectan la taquilla de una película son muy complejos y van desde el atractivo de taquilla del director, actores y guionistas, hasta la escala de inversión y los costos de publicidad de la productora y distribuidora. , al tipo de película, lugar de producción y tecnología de rodaje.
(3D, IMAX) y si se trata de una secuela, la última hora de estreno, días festivos, horarios, películas competitivas, arreglos teatrales, atención del público antes y después del estreno, efecto boca a boca e incluso El clima puede afectar un dispositivo electrónico.
La taquilla final de la película.
Además de los factores ya introducidos, las características realmente utilizadas en el modelo incluyen:
? Concursos de cine en el calendario. Descubrimos que en el modelo de predicción de taquilla abierta anterior, cada película se predijo de forma independiente sin considerar la relación competitiva entre películas, lo que obviamente no es razonable. Utilizamos un algoritmo único para estimar el impacto de otras películas en la cuota de mercado durante el mismo período.
? Género cinematográfico. Curiosamente, a través de experimentos comparativos, se descubrió que las películas de ciencia ficción son las que más aumentan la taquilla, seguidas de las películas de acción y policíacas, mientras que las películas literarias, biográficas y cómics obtienen los peores resultados en el modelo.
? Área de producción cinematográfica.
Para las películas producidas por Hollywood, con otros factores similares a las películas nacionales, la taquilla aumentó en aproximadamente 30 millones a 654,38 mil millones + 20 millones.
? cronograma. Las franjas horarias específicas tienen bonificaciones de taquilla adicionales, lo que también está en línea con las expectativas.
? 3D o no, sorprendentemente, no hay una diferencia significativa si el 3D tiene un impacto muy pequeño en la taquilla cuando otros factores son similares. Parece que las personas "pseudo-3D" pueden ahorrar algunos costos de producción 3D de posproducción.
? tráiler. Las tendencias en la búsqueda de avances por vídeo también pueden proporcionar una indicación temprana de la popularidad de la película.
Hemos integrado con éxito todas las tecnologías anteriores en Deep Thinking. Para la primera semana de datos de taquilla de enero a noviembre de 2013 utilizados para capacitación, el último modelo puede lograr una precisión del 95,5% bajo validación cruzada.
Debido a que el número total de películas en el conjunto de entrenamiento es pequeño (180 películas), hacemos mucho trabajo adicional para garantizar que el modelo final no se ajuste demasiado. En este momento, "Deep Thinking" está listo para predecir la taquilla de las próximas películas.
?
Efecto de predicción real
Durante el proceso de investigación real, antes del estreno de la película en febrero del 65438, se utilizó el sistema de "pensamiento profundo" para realizar una prueba en la taquilla de la película en la primera semana (7 días). Hacer predicciones y publicar los resultados de las predicciones en el Weibo de un miembro del equipo. Los resultados de la predicción son los siguientes: entre las nueve películas que se han pronosticado, la taquilla prevista de los primeros cuatro éxitos de taquilla está muy cerca de la taquilla real, ligeramente mejor que nuestras expectativas.
Etiquetas
El experto en pronósticos Nat Silver mencionó en el libro "Signal and Noise: The Science and Art of Forecasting in the Age of Big Data" que las predicciones de big data de los tiempos son más Es probable que fallen, y las predicciones fallidas provienen en su mayoría de una especie de confianza ciega, que utiliza predicciones precisas para pretender ser exactas.
Tenemos una comprensión clara de esto y el modelo actual de predicción de taquilla aún debe mejorarse. En primer lugar, la idea principal del modelo actual es calcular la taquilla en la primera semana en función de la atención del usuario antes del estreno de la película. De hecho, este no es el caso.
Teniendo en cuenta. tener en cuenta el impacto del boca a boca en la taquilla después del estreno de la película; en segundo lugar, el modelo Depender más de datos históricos puede dificultar la identificación de algunas películas de bajo presupuesto que se destacan después de su estreno; Una vez más, la tecnología actual sólo puede avanzar en 10.
La previsión de taquilla de la primera semana será mañana, y se puede avanzar más.
En general, el sistema "Deep Thinking" representa algunos de los nuevos intentos de Sogou en la predicción social. Nos esforzamos por detectar señales reales a partir de datos masivos y complejos, y trabajamos duro para superar la niebla de la incertidumbre y discernir el futuro.
Qué partes de la imagen son predecibles y cuáles son impredecibles. El camino hacia este futuro aún se está explorando, pero por ahora nuestro trabajo ha logrado algunos avances importantes, lo que nos da más confianza.