Discusión sobre las ventajas y desventajas del análisis de big data de Google Flu Trends
Discusión de la gloria y los peligros del análisis de big data de Google Flu Trends
Este artículo comienza con la diferencia de rendimiento de Google Flu Trends antes y después de 2009, desde la autoexpansión de los grandes datos, evolución de algoritmos, motivaciones ocultas que conducen a cambios en el mecanismo de generación de datos y otros aspectos se exploran en términos de los obstáculos que probablemente enfrentará el análisis de big data, así como las implicaciones para el desarrollo de la industria de big data de China. Este artículo cree que si China quiere desarrollar de manera saludable la industria de big data, debe protegerse contra el riesgo de la arrogancia de big data, promover que la industria de big data y la industria de pequeños datos vayan de la mano y fortalecer los esfuerzos para mejorar la transparencia. de big data y evaluar cuidadosamente la calidad de big data.
I. Tendencias de gripe de Google: ¿inesperada?
La inesperada historia de "Google Flu Trends" (GFT) a menudo se considera una prueba de las ventajas del análisis de big data.
En noviembre de 2008, Google lanzó el proyecto GFT con el objetivo de predecir la incidencia de influenza informada por los Centros para el Control y la Prevención de Enfermedades (CDC) de Estados Unidos. En 2009, el equipo de GFT publicó un artículo en la revista Nature en el que afirmaba que sólo necesitaban analizar miles de millones de búsquedas de 45 palabras clave relacionadas con la gripe, y que GFT podía predecir la epidemia de 2007-2008 con dos semanas de antelación que los Centros para el Control y la Prevención de Enfermedades. Prevención. Incidencia de la gripe.
Es decir, en lugar de esperar a que los CDC publiquen tasas de incidencia basadas en el número de visitas al hospital, las personas pueden saber con dos semanas de antelación cuántas personas visitarán el hospital con gripe en el futuro. Con estas dos semanas, la gente puede tener tiempo suficiente para prepararse con antelación y evitar ser pillada. ¿Cuántas personas pueden evitar dolores, problemas y pérdidas financieras innecesarias debido al big data?
En 2014, Lazer y otros académicos informaron sobre el desempeño de GFT en los últimos años en la revista Science: En 2009, GFT no pudo predecir la influenza H1N1 contraestacional desde agosto de 2011 hasta durante 108 semanas en agosto; En 2013, el GFT sobreestimó la incidencia de influenza informada por los CDC durante 100 semanas. ¿Qué tan alta es la sobreestimación? En el trimestre 2011-2012, el GFT predijo una tasa de incidencia que fue más de 1,5 veces el valor informado por los CDC; en el trimestre 2012-2013, la tasa de incidencia de influenza pronosticada por el GFT fue más del doble del valor informado por los CDC. La Iniciativa Mundial de Vacunación se convirtió así en el "niño que gritó el lobo". Entonces, ¿qué pasa si no utilizamos big data? Los autores informaron que utilizar solo datos históricos de los CDC de hace dos semanas también fue mucho mejor para predecir la incidencia que la GFT.
En 2013, Google ajustó el algoritmo GFT y afirmó que el principal culpable del sesgo eran los cambios en el comportamiento de búsqueda de las personas causados por la amplia cobertura mediática de GFT. Sus estimaciones muestran que la tasa de incidencia de influenza proyectada por el GFT para el trimestre 2013-2014 sigue siendo 1,3 veces mayor que el valor informado por los CDC. Además, los errores sistemáticos descubiertos anteriormente todavía existen, lo que significa que los errores cometidos en el pasado se siguen cometiendo hoy. Debido a que faltan algunos factores importantes, GFT sigue teniendo una enfermedad terminal.
¿Por qué el legendario y glorioso análisis de big data tiene errores sistemáticos tan grandes? En esencia, podemos explorar las características de recopilación y los métodos de estimación de big data.
2. Vino viejo en botellas nuevas: sobreajuste
La llegada de la era del big data ha supuesto cambios profundos en la recogida de datos. Los datos masivos, los datos en tiempo real y los datos no estructurados ricos y diversos penetran en la vida de las personas con una amplitud sin precedentes. Pero lo que permanece sin cambios es que desde la perspectiva de los métodos de análisis estadístico, la minería de datos sigue siendo la principal tecnología del análisis estadístico. El problema más preocupante en la minería de datos, el sobreajuste, está lejos de resolverse debido a los diversos obstáculos que se mencionan a continuación.
Primero usemos una historia para explicar qué es el sobreajuste. Supongamos que hay una escuela de policía llamada Ivory Tower, que se especializa en capacitar a agentes de policía para atrapar a ladrones.
Esta escuela afirma que en su escuela puedes conocer a todo tipo de gente común y todo tipo de ladrones. Si vienes a su escuela, puedes convertirte en el mejor policía del mundo. Pero una peculiaridad de esta escuela es que nunca enseña psicología criminal.
El método de enseñanza en Ivory Tower es el siguiente: la multitud se divide aleatoriamente en diez grupos, cada grupo está compuesto por civiles y ladrones. Los alumnos pueden observar a todos los miembros de los primeros nueve grupos y saber quién es un civil y quién es un ladrón. Todo lo que los alumnos tienen que hacer es encontrar al ladrón en el décimo grupo basándose en las características de los ladrones que han aprendido de los primeros nueve grupos. Por ejemplo, si el alumno observa en los primeros nueve grupos que a un ladrón también le gusta comprar cerveza cuando compra pañales para niños, entonces observar a alguien comprando cerveza mientras compra pañales en el décimo grupo puede usarse como condición de sospecha. Después de completar este proceso, la escuela divide a la multitud y la vuelve a dividir en diez grupos, y así sucesivamente, y luego realiza la prueba. El contenido de la prueba es dividir aleatoriamente a la multitud en diez grupos nuevamente para ver quién puede encontrar al ladrón en el décimo grupo de manera más rápida y precisa según la información de los primeros nueve grupos. El ganador, el mejor policía de la torre de marfil, podrá ser enviado a la comunidad para atrapar a los ladrones.
Después de un tiempo, surge un problema: el mejor policía de la torre de marfil siempre puede encontrar rápidamente al ladrón en la escuela de la torre de marfil, pero una vez fuera de la torre de marfil, el policía siempre atrapa a los equivocados y los equivocados. Eso es correcto. Su desempeño en la captura de ladrones ni siquiera fue tan bueno como el de los que no habían venido a estudiar a la torre de marfil.
En esta historia, el mejor policía de la torre de marfil equivale al mejor modelo seleccionado según métodos de minería de datos de big data y métodos de aprendizaje automático. Los ladrones equivalen a objetos que necesitan ser examinados para detectar problemas específicos, como personas que tienen gripe, personas que se suicidarán sin intervención, personas que incumplen sus deudas, etc. Los primeros nueve grupos de personas equivalen a los datos de entrenamiento utilizados para entrenar el modelo; el décimo grupo de personas equivalen a los datos de prueba utilizados para probar los resultados del entrenamiento. No enseñar psicología criminal significa que atrapar a un ladrón no requiere comprender por qué un ladrón es un ladrón. Esto es similar al análisis de datos que solo se preocupa por la correlación pero no por la causalidad. El proceso de entrenar al mejor oficial de policía es similar al uso de técnicas de aprendizaje automático: se usan datos de entrenamiento para entrenar el modelo, luego se usan los datos de prueba para seleccionar el modelo y el modelo con los mejores resultados de predicción se usa como el mejor modelo para varios futuras aplicaciones.
Por último, el problema del sobreequipamiento es que la policía puede atrapar al ladrón rápidamente en la torre de marfil, pero no fuera de la escuela. Porque a través de muchos ejercicios repetidos en la escuela, nos hemos familiarizado con las características de los ladrones entrenados, por lo que no importa cómo seleccionemos puntos al azar, podemos encontrar rápidamente a los ladrones sin cometer errores, esto equivale a entrenar el modelo, porque ya estamos; Conociendo las características de las personas a seleccionar, el modelo puede ajustarse bien a las observaciones dentro de la muestra. Dado que los criterios de la escuela de la torre de marfil para juzgar a los ladrones dependen principalmente de las características externas sin comprender las razones internas, por ejemplo, los ladrones a menudo usan gorras con visera, cuando las características de los ladrones en el grupo social son muy diferentes de las del grupo de la torre de marfil, por ejemplo, hay muchos ladrones en la sociedad que usan bombines con frecuencia, y el estándar de atrapar un sombrero de visera en la torre de marfil se convierte en atrapar el sombrero equivocado en la sociedad. En otras palabras, un modelo que predice bien dentro de la muestra tendrá un desempeño deficiente fuera de la muestra. Éste es el problema del sobreajuste.
Desde una perspectiva de sobreajuste, esto puede ayudarnos a comprender por qué GFT tuvo un buen desempeño en 2009 y un mal desempeño a partir de entonces. En 2009, GFT pudo observar todos los datos de los CDC para el período 2007-2008, lo que significaba que sabía exactamente dónde los CDC informaron tasas de incidencia altas y dónde informaron tasas de incidencia bajas. Por lo tanto, el criterio para encontrar el mejor modelo utilizando los datos de entrenamiento y prueba anteriores es claro: un alto ajuste a la incidencia observada a toda costa. Lazer et al. descubrieron que al predecir la prevalencia de la influenza en 2007-2008, GFT eliminó algunos términos de búsqueda aparentemente extraños y utilizó 50 millones de términos de búsqueda adicionales para ajustarse a 1.152 puntos de datos.
Después de 2009, el modelo se enfrenta a datos verdaderamente desconocidos. En este momento, si los datos posteriores son muy similares a los datos de 2007-2008, entonces GFT también debería poder ajustarse perfectamente al valor estimado de los CDC.
Sin embargo, la realidad es despiadada. La existencia de errores sistemáticos indica que GFT tiene grandes desviaciones en algunas partes y tiene que afrontar el problema del sobreajuste.
Como se puede ver en la historia anterior, hay tres factores clave que causan el sobreajuste. En primer lugar, la Escuela Torre de Marfil cree que la escuela conoce las características de toda la gente corriente y de todos los ladrones, lo que equivale a conocer las características de los grupos sociales. En segundo lugar, la escuela de la torre de marfil entrena a policías que no se preocupan por las causas de los ladrones sino por capturar meticulosamente las características de los ladrones conocidos. En tercer lugar, la Escuela Torre de Marfil cree que no importa cuánto tiempo pase, la escuela siempre puede garantizar que las características de comportamiento de la gente común y los ladrones no cambien a gran escala, especialmente debido a la capacitación en la escuela.
En la nueva botella de big data todavía se puede contener el viejo vino del sobreajuste en la minería de datos, pero no se pueden evitar las tres trampas siguientes: la arrogancia del big data, la evolución de los algoritmos y la Fallo de la extracción de datos debido a motivos invisibles. Cambios resultantes en el mecanismo de generación de datos.
Tres desafíos principales del análisis de big data
(1) Trampa 1: "Arrogancia de Big Data"
Lazier y otros académicos llaman la atención de la gente sobre los "grandes Arrogancia de los datos" Arrogancia de los datos" Razer y otros académicos llaman la atención de la gente sobre la tendencia de la "arrogancia de los grandes datos", es decir, pensar que los propios datos son datos agregados y, por lo tanto, posicionar los grandes datos como datos tradicionales basados en muestreos científicos (en lo sucesivo denominado "small data") Analizar alternativas, no complementos.
Hoy en día, el big data hace posible que una empresa u organización obtenga información sobre cada cliente y los datos agregados que componen su base de clientes, por lo que esto significa que las empresas no necesitan preocuparse por el muestreo. Problemas cuando tienen esos datos ¿Paño de lana?
La clave aquí es si los datos que posee la empresa u organización, llamados población, son los mismos que los datos de población involucrados en la pregunta de investigación. El siguiente ejemplo está recogido en el libro "Top of the Data Book": En los años 30, el "Literary Digest" americano tenía alrededor de 2,4 millones de lectores. Si Literary Digest quisiera comprender la estructura de género y edad de estos lectores, entonces sería factible realizar un análisis sin muestra de los aproximadamente 2,4 millones de lectores, siempre que los recursos financieros y humanos lo permitieran. Pero para predecir quién sería elegido presidente en 1936, no se puede suponer que el conjunto de "los propios lectores" sea esencialmente el mismo que el conjunto del "electorado estadounidense". De hecho, aunque la base de suscriptores de la "Revista Literaria" es grande, se concentra principalmente en las clases media y alta y no puede representar a todo el electorado. Por tanto, Gallup determinó la proporción de cada tipo de votante en la muestra en función de las características demográficas de los electores, formando una muestra de 5.000 personas. Cuando se trata de predecir el próximo presidente, el uso de estos pequeños datos puede capturar la opinión pública con mayor precisión que el uso de los grandes datos de Literary Digest.
En el caso de GFT, la totalidad de la "información de búsqueda recopilada por GFT" y la totalidad de la "población afectada por la epidemia de influenza" pueden no ser la misma. A menos que las dos poblaciones se generen mediante el mismo mecanismo, utilizar una población para estimar la otra conducirá inevitablemente a sesgos.
Además, dado que si los big data son una población está inextricablemente vinculado a la pregunta de investigación, en el análisis empírico, a menudo es necesario tener una comprensión completa de los datos pequeños que pueden representar una población bajo un muestreo científico. ¿Podemos juzgar si el simple uso de big data en la investigación cometerá el error de "arrogancia de big data"?
(2) Trampa 2: Dinámica algorítmica
El problema de la dinámica algorítmica es más complejo que el problema de la "arrogancia de los big data" y tiene un profundo impacto en el uso empírico de los big data. . Entendamos este problema a través de una historia hipotética. Supongamos que un equipo de investigación quiere juzgar las actitudes de los monjes hacia el riesgo a través de la información que publican en sus Momentos WeChat. La cantidad de veces que los monjes se encuentran con tigres es un indicador importante de si les gusta correr riesgos. Después de observar a los monjes durante un período de tiempo, el equipo de investigación descubrió que el joven monje Zhikong solía encontrarse con tigres aproximadamente una vez al mes, pero desde hace medio año, Zhikong mencionó en su círculo de amigos que la cantidad de veces que se encontraba Los tigres habían aumentado drásticamente. Aumentar e incluso encontrar muchos tigres todos los días.
Dado que el análisis de big data no se preocupa por la causa y el efecto, el equipo de investigación no se molestó en explorar por qué Zhihong se encontró repentinamente con tantos tigres. En cambio, juzgaron, basándose en datos históricos, que Zhihong estaba más dispuesto a correr riesgos que antes. Lo que el equipo de investigación no sabía era que Zhikong solía vivir con un viejo monje. Hace medio año, a Zhikong se le ordenó bajar de la montaña para hacerse vegetariano. Antes de irse, el viejo monje le dijo a Zhikong que las mujeres en el. Al pie de la montaña había tigres y debía evitarlos si los encontraba. En esta historia, debido al consejo del viejo monje, el estándar de Zhi Kong para los tigres ha cambiado. En otras palabras, para los mismos datos sobre tigres, el mecanismo de generación del número de tigres observados hace medio año es diferente del mecanismo de generación medio año después. Sorprendentemente, el equipo de investigación no se dio cuenta de esto.
La recopilación de big data encontrará problemas similares en la realidad, porque los big data son a menudo un producto pasivo de las empresas después de llevar a cabo sus principales actividades comerciales. En el caso de Google, el principal objetivo de su modelo de negocio es proporcionar a los usuarios información precisa y más rápida. Para lograr este objetivo, los científicos e ingenieros de datos actualizan constantemente los algoritmos de búsqueda de Google para que los usuarios puedan obtener rápidamente información útil basada en términos relevantes recomendados por Google. Este modelo es comercialmente necesario, pero el mecanismo de generación de datos puede hacer que los usuarios busquen palabras clave que no tenían intención de utilizar.
Esto crea dos problemas: primero, debido a que las reglas del algoritmo cambian constantemente sin el conocimiento de los investigadores, los datos de hoy pueden ser fácilmente incomparables con los datos de mañana, como en los seis ejemplos anteriores. hace no son comparables a las cifras de tigres dentro de seis meses. En segundo lugar, la naturaleza del proceso de recopilación de datos ha cambiado. Los macrodatos ya no se limitan a registrar pasivamente las decisiones de los usuarios, sino que participan activamente en las decisiones de comportamiento de los usuarios a través de la evolución de los algoritmos.
En lo que respecta a GFT, la evolución del algoritmo después de 2009 ha dado lugar a datos de búsqueda incomparables, especialmente la suposición de que "los buscadores toman decisiones completamente espontáneas sobre las palabras clave que escriben", lo que en años posteriores dejó de ser cierto. ya no es cierto. Por lo tanto, utilizar un modelo creado en 2009 para predecir el futuro conduce inevitablemente a un rendimiento deficiente debido a problemas de sobreajuste.
(C) Trampa 3: Motivaciones invisibles
En los problemas de evolución algorítmica, los cambios de comportamiento de los generadores de datos son inconscientes; simplemente hacen clic en los enlaces bajo la guía de la página. Si no se considera la causalidad en el análisis de datos, entonces no hay forma de abordar el problema de que los cambios conscientes de comportamiento de las personas afectan las características básicas de los datos. Este punto es igualmente importante para los usuarios de datos y las agencias de recopilación de datos y no puede ignorarse.
Además de los cambios espontáneos en el comportamiento de las personas que el sistema no puede detectar, el impacto de los estándares de evaluación de big data en el comportamiento de las personas también merece especial atención. Tomemos nuevamente "Zhi Kong" como ejemplo. Supongamos que el pequeño monje Zhikong en el artículo anterior descubre que su puntaje crediticio de sandía es mucho más bajo que el de su amigo Xiao Chongming. Zhikong no estaba muy convencido. Después de una cuidadosa observación, creyó que los comentarios en el círculo de amigos podrían ser la razón principal de la diferencia. Entonces, estudió en detalle el círculo inteligente de amigos. Descubrió que Zhizhi nunca mencionó su encuentro con un tigre en sus Momentos WeChat, pero a menudo promovía la no matanza, la protección del medio ambiente y la sopa de pollo para el alma. También compartió a menudo que conoció a donantes generosos durante la limosna. proceso. Aunque en realidad sabía que Zhikong prefería beber carne y vino, y nunca había visto al viejo monje elogiar a Zhikong por sus logros en el ayuno. Después de recibir la iluminación, su estilo de hablar en el círculo de amigos cambió drásticamente. Poco después, quedó satisfecho al ver que su puntaje crediticio de sandía había aumentado significativamente.
Una de las ventajas en las que a menudo se basa el big data hoy en día es que los datos de las redes sociales enriquecen enormemente las percepciones de personas de todos los ámbitos de la vida. Esta percepción a menudo se basa en una suposición implícita de que la información que las personas comparten en las redes sociales es auténtica, espontánea y no está influenciada por los estándares de las agencias de calificación y diversas organizaciones de evaluación. Sin embargo, en la era de Internet, la capacidad de las personas para aprender a través de Internet ha mejorado enormemente. Si las personas cambian la información de sus redes sociales en consecuencia aprendiendo los estándares de las agencias de calificación, significa que los estándares de evaluación del análisis de big data se han incorporado a los datos generados por las personas. En este momento, si el comportamiento de las personas no se construye, modela y modela cuidadosamente. Es difícil captar con precisión este cambio cualitativo en el mecanismo de generación de datos.
Desde la perspectiva de las organizaciones generadoras de datos, también puede haber cambios sutiles en sus actitudes hacia los datos. Por ejemplo, en el pasado, la motivación de las empresas de redes sociales para registrar y guardar la información de los clientes era simplemente porque era la necesidad del desarrollo comercial de la empresa, y el desarrollo de algoritmos era puramente para servir mejor a los consumidores. Sin embargo, con el advenimiento de la era de los big data, las características de "los datos son los reyes" se han vuelto cada vez más obvias y las empresas se han dado cuenta gradualmente de que los datos que poseen se están convirtiendo en un activo importante. Además de aumentar hasta cierto punto los ingresos mediante la implantación de anuncios entre los usuarios, lo más importante es tener un impacto en la sociedad. En este momento, no se descarta que la institución generadora de datos pueda manipular la generación y reporte de datos hasta cierto punto para su propio beneficio. Por ejemplo, las encuestas en redes sociales como Facebook tienen el potencial de influir en la dirección política de un país. Dado que el lenguaje utilizado y la forma en que se realizan las encuestas pueden influir en sus resultados, las empresas pueden manipular la opinión pública hasta cierto punto en beneficio de sus propios intereses.
En resumen, si el análisis estadístico de big data cree ingenuamente que los usuarios de datos y las instituciones generadoras de datos están produciendo inconscientemente big data, e ignora la motivación detrás del comportamiento de las personas para buscar beneficios y evitar daños, puede verse afectado por la Las características de los datos están confundidas por los cambios rápidos, incluso si ve un mal comportamiento predicho por el modelo, es difícil encontrar formas efectivas de superarlo.
4. Lecciones del pasado
Actualmente, nuestro país concede una gran importancia al desarrollo del big data. El 31 de agosto de 2015, el Consejo de Estado emitió el "Esquema de acción para promover el desarrollo de Big Data", que implementó sistemáticamente el desarrollo de Big Data. Según el "Esquema", los macrodatos se han convertido en una nueva fuerza impulsora para promover la transformación y el desarrollo económicos (310328, Fund Bar), una nueva oportunidad para remodelar la ventaja competitiva del país y una nueva forma de mejorar las capacidades de gobernanza del gobierno. El Esquema establece que para fines de 2018, se construirá una plataforma abierta unificada para datos del gobierno nacional, y tomaremos la iniciativa para lograr una apertura razonable y apropiada de datos públicos y recursos de datos a la sociedad en campos importantes como el crédito, el transporte. y salud médica. Por lo tanto, en los últimos años, muchos lugares han establecido autoridades de administración de big data, y la industria y el mundo académico han respondido con entusiasmo al análisis y utilización de big data. Por lo tanto, comprender las ventajas y malentendidos del análisis de big data es extremadamente importante para el desarrollo económico y la investigación empírica de mi país, y las posibles oportunidades y problemas en el uso de big data reflejados por el proyecto GFT merecen atención.
(1) Prevenir el riesgo de la "arrogancia del big data"
El caso de GFT muestra que si el big data puede reemplazar al pequeño, entonces el problema del sobreajuste conducirá a una estimación enorme. errores. En la era actual de "innovación y emprendimiento masivo", este punto es particularmente digno de atención. Esto se debe a que los big data son altamente considerados como el elemento nuevo más deslumbrante en "innovación", y las características de la economía de nuestro país en un período de transformación hacen que los microdatos que enfrentan las empresas u organizaciones cambien constantemente y de manera dinámica. Si estos cambios se ignoran en la minería de datos, a menudo tendremos que afrontar la pérdida del sobreajuste.
Por ejemplo, aunque la cantidad de datos utilizados por la industria de préstamos en línea P2P de China en su mayoría no alcanza los datos masivos que requiere el big data, muchas empresas están dispuestas a utilizar rastreadores y otras tecnologías para extraer información de las redes sociales. . Pantalla de clientes. Por lo tanto, la salud de estas plataformas puede ser inseparable de la gravedad del sobreajuste. De acuerdo con el informe operativo anual de 2014 y el informe operativo del primer semestre de 2015 de la industria de préstamos en línea P2P de China, podemos calcular en la Figura 1 el número promedio de nuevas plataformas problemáticas por mes de 2006 a 2004 y de enero a mayo de 2015, y comparar con el número de nuevas plataformas problemáticas en junio de 2015. [1]
Hay muchas razones para el aumento sustancial en el número de nuevas plataformas problemáticas. Sin embargo, desde la perspectiva del análisis de datos, dado que actualmente no hay datos legales****, las plataformas P2P sí lo son. En el proceso de evaluación de la calidad del cliente, en este momento, a menudo solo podemos confiar en los datos extraídos de nuestros propios canales y redes sociales, y utilizar métodos de extracción de datos para construir los modelos correspondientes. En el análisis de datos, muchas plataformas P2P a menudo se olvidan de probar la representatividad de sus propias muestras y también ignoran la información contenida en los datos macroeconómicos y otros microdatos.
Dado que las empresas financieras de Internet existen desde hace poco tiempo y han crecido principalmente durante los auges económicos, si dependen únicamente de canales de datos limitados y no tienen suficiente comprensión del comportamiento individual bajo la nueva normalidad en los procesos de minería de datos y aprendizaje automático, Serán vulnerables a las recesiones económicas. El período aún subestimó la tasa de morosidad según los datos históricos, lo que resultó en una sobreestimación de la salud de la plataforma y, en última instancia, tuvo que enfrentar la situación de crecientes problemas de la plataforma.
(2) Big data y Small data van de la mano
Big data y Small data tienen cada uno sus propias ventajas y desventajas. En resumen, los datos pequeños generalmente no suponen que los datos sean un todo, por lo que antes de recopilar datos, a menudo es necesario determinar el objetivo de la recopilación de datos, diseñar un cuestionario o método de recopilación basado en este objetivo y determinar el marco de muestreo. Después de la recopilación de datos, diferentes académicos a menudo pueden evaluar la credibilidad de los datos mediante la validación cruzada de los datos recién recopilados con datos diferentes. Las ventajas de los datos pequeños son que las variables están claramente definidas, el mecanismo de generación de datos es básicamente controlable y los costos de inspección y evaluación durante el proceso de recopilación son relativamente bajos. Las desventajas son los altos costos de recopilación de datos, los largos intervalos de tiempo y la granularidad gruesa.
Las ventajas del big data son un gran volumen de datos, un tiempo de recopilación corto, tipos de datos enriquecidos y una granularidad muy fina. Sin embargo, dado que los big data suelen ser incidentales a las actividades comerciales de algunas empresas y organizaciones, no pueden generarse mediante herramientas de medición bien documentadas. Además, debido a la gran cantidad de big data, es difícil realizar una validación cruzada de la credibilidad de los datos y también es difícil para diferentes académicos realizar investigaciones independientes utilizando los mismos datos para probar la coherencia de los datos. Estas características significan que la precisión y confiabilidad de los big data en sí mismos pueden no cumplir con los requisitos de la investigación científica, por lo que en el análisis de datos se necesita una comprensión más clara de las cuestiones para las cuales los big data son adecuados para la investigación.
Los macrodatos son muy prometedores a la hora de complementar los pequeños datos para avanzar en la investigación y la comprensión. La combinación de big data con small data puede mejorar en gran medida la granularidad de los datos y la precisión de las predicciones. Por ejemplo, un estudio de los pronósticos de incidencia de influenza de los CDC encontró que los modelos que combinaban los grandes datos utilizados por GFT con los datos históricos de los CDC tenían un poder predictivo significativamente mejor que los grandes o pequeños datos por sí solos.
Los big data a menudo se pueden generar en tiempo real y, en comparación con los datos pequeños, los big data tienen ventajas irremplazables a la hora de observar la dinámica de una comunidad específica. Por ejemplo, en los Estados Unidos, después del incidente del 11 de septiembre, debido a la necesidad de estimar con rapidez y precisión la población activa en comunidades pequeñas específicas, se lanzó el proyecto "Dinámica longitudinal del empleo y de la dirección domiciliaria" (LEHD). que combinó datos del censo, datos nacionales de compañías sexuales, solicitudes individuales de seguro de desempleo, subsidios y otros datos para proporcionar una imagen más completa de la población. El proyecto vincula datos del censo, datos de empresas nacionales y seguros de desempleo individuales, subsidios, pago de impuestos y otros registros para reflejar más plenamente el "metabolismo" de una comunidad durante un corto período de tiempo.
La combinación de estos datos es importante para comprender la dinámica de nuestras condiciones socioeconómicas. Una posible aplicación es combinar información de datos pequeños recopilados, como población urbana, situación laboral, género, edad, ingresos, etc., con condiciones de tráfico generadas en tiempo real para predecir las características de viaje de las personas y resolver los problemas de congestión del tráfico urbano y control del smog. Otra posible aplicación es promover la combinación de datos del sistema de información crediticia personal del Centro de Información Crediticia del Banco Popular de China y big data de sistemas de información crediticia privados para establecer un sistema de información crediticia personal chino de alta calidad.
Además, la economía de China se encuentra en un período de transformación y hay muchas políticas que requieren una evaluación rápida de sus efectos. Basándonos en datos pequeños y aprovechando el rico volumen de datos de big data, podemos realizar algunos experimentos aleatorios a través de Internet para evaluar los efectos de algunas políticas. Esta también es una posible dirección de desarrollo.
En la última década, mi país ha logrado grandes avances en la recopilación de datos pequeños, especialmente datos empíricos a nivel micro, a través de canales no oficiales. Con los esfuerzos de muchas partes, más datos generados después de una rigurosa verificación científica podrán ponerse a disposición del público de forma gratuita para su investigación. Por ejemplo, la "Encuesta sobre salud y atención de personas mayores de China" y la "Encuesta sobre familias en China" de la Universidad de Pekín cuentan con expertos de diferentes campos como economía, educación, salud, sociología, etc., que participan en el control de calidad del diseño del cuestionario y la recopilación de datos.
Gracias a estos esfuerzos, los mecanismos para generar datos pequeños se han vuelto más transparentes y los pasos necesarios para la investigación empírica, como la validación cruzada de la credibilidad de los datos de las encuestas, se han vuelto más factibles.
Sin embargo, todavía hay mucho margen de mejora en la recopilación y el uso de datos pequeños, así como en la aplicación abierta de datos pequeños por parte de los gobiernos y agencias relevantes. Sólo estudiando e investigando plenamente los pequeños datos relacionados con las condiciones nacionales básicas de China podrán los círculos académicos e industriales de China tener una comprensión más clara de la situación básica en los campos económico, político, social, cultural y otros. Este tipo de comprensión es la evaluación de la calidad de los big data, que puede convertirse en la clave para estudiar los problemas de los big data y desempeñar un papel decisivo en la promoción del desarrollo saludable de la industria de los big data.
Entonces, en términos de orientación política, para lograr el objetivo de que big data y small data se complementen entre sí y promuevan el desarrollo económico, al mismo tiempo que promovemos el desarrollo de big data, también debemos desarrollar vigorosamente los datos pequeños. industrias relacionadas y promover la investigación y el desarrollo relacionados con los pequeños datos cooperar para que los grandes y pequeños datos vayan de la mano y se complementen.
(3) Mejorar la transparencia del uso de big data y fortalecer la evaluación de la calidad de big data
El problema de transparencia al que se enfrentan los big data es mucho más grave que el de los datos pequeños. En el caso GFT, Lazer y otros señalaron que Google nunca aclaró qué 45 palabras clave se utilizaron para las búsquedas, aunque los ingenieros de Google ajustaron el algoritmo de datos en 2013, Google no reveló los datos correspondientes ni explicó cómo se recopilan; . En China, no hay muchos ejemplos de datos proporcionados por empresas relacionadas con big data que los académicos puedan obtener y utilizar para la investigación.
Relacionada con la transparencia está la cuestión de la replicabilidad de los resultados del análisis de big data. Debido a que los datos utilizados por GFT son difíciles de obtener por investigadores fuera de Google, es difícil replicar y evaluar la confiabilidad de los resultados de los análisis que utilizan estos datos. Por lo tanto, es difícil formar una sinergia en la investigación utilizando big data y solo puede ser caso por caso.
También es importante señalar que si el mecanismo de generación de datos no está claro, es difícil replicar los resultados de la investigación, y el desarrollo de algoritmos también muestra que los datos finales a menudo se convierten en una espina para ambos usuarios. y diseñadores. Esta naturaleza de "caja negra" de la generación de datos puede convertirse fácilmente en un caldo de cultivo para que las empresas u organizaciones manipulen el proceso de generación de datos y los resultados de los informes de investigación. Sólo promoviendo la transparencia y la apertura de big data se podrá establecer una cultura de datos saludable al comienzo del desarrollo de la industria de big data.
Por lo tanto, para utilizar mejor los big data en la era del big data, es necesario tomar medidas para aumentar la transparencia del proceso de generación de big data. Por ejemplo, se deben tomar medidas para promover que las empresas de generación de datos publiquen periódicamente big data muestreados aleatoriamente después de manejar adecuadamente la información privada, exigir a las empresas de generación de datos que publiquen rápidamente cambios en los algoritmos de datos y fomentar el uso de big data para realizar investigaciones para lograr replicabilidad y facilitar la verificación cruzada.
5. Conclusión
Existe una opinión popular de que en la era del big data, la tecnología permite a las personas tener la población, por lo que el muestreo ya no es importante debido al avance de la tecnología. En la minería de datos, solo debemos prestar atención a la correlación, no es necesario centrarnos en la causalidad. Como se puede ver en el ejemplo de GFT, incluso si Google utiliza miles de millones de observaciones al calcular GFT, no se puede suponer que Google tenga a toda la población con influenza. Si cree erróneamente que grandes cantidades de datos son holísticos, no podrá combinar humildemente pequeños datos de otras fuentes para obtener conclusiones de análisis más confiables. Además, la causa de las estimaciones sesgadas de GFT siempre ha sido inseparable del comportamiento proactivo de las personas: ya sea que el propio Google crea que la popularidad de GFT lleva a que más personas utilicen la búsqueda, o que Lazer y otros crean que el algoritmo cambiará y descartará los valores atípicos. Por lo tanto, las consecuencias de observar únicamente las correlaciones sin comprender las razones de los cambios en el mecanismo de generación de datos pueden ser que el sesgo de cálculo de GFT haga que Google pierda prestigio, o puede ser que el pueblo y las organizaciones chinos estén comprometidos con entusiasmo con el uso de big data para la innovación. y el espíritu empresarial, es posible que pierda prestigio o que tenga que lidiar con pérdidas financieras importantes para las que no estaba preparado de antemano.
Lo anterior es lo que el editor ha compartido con usted sobre la gloria y los peligros ocultos del análisis de big data desde la perspectiva de Google Flu Trends. Para obtener más información, puede seguir Global Green Tree Network para compartir más. información seca