¿Cómo sabe el programa que los datos de la base de datos han sido manipulados ilegalmente?
La existencia de problemas como el fraude de datos y la deshonestidad de los datos ha planteado graves desafíos a muchos escenarios de aplicación, como la supervisión financiera y el control de riesgos, y se está convirtiendo en un factor clave en la interconexión y el intercambio de datos a gran escala. obstáculo. El problema de los datos auténticos y creíbles ya ha afectado a todos los ámbitos de la sociedad. En la era de la inteligencia artificial que depende más de los datos, este impacto será más evidente.
El fraude de datos puede ocurrir en cualquier momento. Es más probable que esto suceda durante el proceso de almacenamiento de datos: con la tecnología de almacenamiento de datos actual, los propietarios, administradores o repositorios confiables tienen la capacidad de alterar o eliminar datos unilateralmente a voluntad.
Dado que una de las principales razones por las que no se puede confiar en los datos es que una de las partes puede alterarlos y eliminarlos, naturalmente se ha prestado amplia atención a cómo evitar este problema. El nacimiento de blockchain y la tecnología de almacenamiento descentralizado ha contribuido a frenar la manipulación de datos y también ha obtenido una verificación preliminar en el mercado.
Muchas empresas están empezando a intentar utilizar blockchain para almacenar datos, por ejemplo en escenarios como la trazabilidad de carga. El método suele consistir en escribir datos importantes directamente en el bloque. Este método simple y tosco resuelve la necesidad de eliminación y modificación de datos y, por lo tanto, satisface el intercambio confiable de algunos datos, pero también tiene muchos problemas:
En primer lugar, no puede almacenar datos masivos: no es adecuado para su uso en la región. Una gran cantidad de datos, incluidos datos multimedia, se almacenan en bloques; de lo contrario, el tamaño de los bloques es difícil de controlar, lo que hace que la cadena de bloques sea menos escalable; Esto da como resultado la necesidad de filtrar y seleccionar los datos nativos en la empresa, y solo seleccionar una pequeña cantidad de datos necesarios para almacenar en el bloque, pero esto reducirá la riqueza de los datos confiables.
En segundo lugar, la eficiencia del acceso a los datos es baja: en primer lugar, el almacenamiento de datos blockchain generalmente no se utiliza para la escritura de datos de alta velocidad debido al proceso de empaquetado. En segundo lugar, debido al método transversal de lectura de datos, la cadena de bloques no puede admitir una indexación rápida, y mucho menos SQL.
El segundo es la baja eficiencia del mantenimiento de datos: debido a sus características de referencia secuencial, la cadena de bloques no admite la eliminación y modificación de datos históricos individuales (excepto para la regeneración completa de la cadena, que es un comportamiento que la cadena de bloques no debería alentar) . Cabe señalar que "no alterar unilateralmente" y "no eliminar en absoluto" son dos cosas completamente diferentes. El primero es un medio técnico para garantizar la confianza mutua, pero el segundo puede perder puntos funcionales necesarios.
Finalmente, existe el riesgo de pérdida de datos: este riesgo solo se aplica a los sistemas blockchain PoW que utilizan el principio de cadena más larga de Satoshi Nakamoto. En este tipo de cadena de bloques, cuando se produce una bifurcación de la cadena, se retiene la rama más larga (o más pesada) de la cadena y se descartan otras ramas, lo que hace que los datos dentro del bloque casi siempre corran el riesgo de ser "subvertidos" y de ser descartados. Ataques como la minería egoísta exacerban este riesgo. Esto es inaceptable en aplicaciones de almacenamiento de datos.
Es por estas razones que el uso directo de blockchain tradicional para el almacenamiento de datos obviamente no puede satisfacer las necesidades de una gran cantidad de escenarios de aplicaciones prácticas para el almacenamiento de datos confiable. Este tema ha provocado mucha discusión, como "qué datos deberían almacenarse en la cadena y qué datos deberían almacenarse fuera de la cadena". La raíz de estos problemas radica en la limitada eficiencia y capacidad de almacenamiento de la propia cadena de bloques. Después de todo, en la era de las bases de datos, nunca discutimos qué datos deberían almacenarse fuera de la base de datos.
En los últimos años, algunos productos han proporcionado prácticas útiles para resolver el problema antes mencionado de baja eficiencia del almacenamiento de datos blockchain, como por ejemplo:
Sistema de archivos interplanetario (IPFS), R3 Corda, TrustSQL de Tencent, etc. Sin embargo, estos productos no son tan eficaces como otros cuando se trata de almacenamiento de datos confiable. Sin embargo, estos productos todavía tienen más o menos problemas en términos de almacenamiento de datos confiable, específicamente:
IPFS genera un resumen hash del contenido de los datos y lo distribuye entre múltiples nodos de almacenamiento, por lo que un solo propietario no es propietario. los datos completos, lo que protege la privacidad de los datos hasta cierto punto. Sin embargo, IPFS solo es independiente de las modificaciones (porque el valor hash cambia cuando cambia el contenido) y no tiene control de acceso ni otras medidas de seguridad de datos, lo que dificulta satisfacer las necesidades de los servicios de nivel empresarial en general.
Corda es un producto de almacenamiento diseñado para las necesidades de privacidad de las transacciones financieras, centrándose en la privacidad del almacenamiento de datos. Por lo tanto, Corda no tiene un libro de contabilidad global y requiere la existencia de testigos. Aunque esta solución de almacenamiento de datos es privada, no es lo suficientemente segura y confiable.
TrustSQL y otros productos nacionales similares adoptan una idea de diseño simple e intuitiva, que también es la práctica más común en China en la actualidad, es decir: primero almacenar los datos en la base de datos (o IPFS) y luego almacene los registros de operación y los datos. Los hashes, etc. se almacenan en la cadena. En comparación con TrustSQL, algunos productos similares (como ChainSQL de Zhongxianbit) han mejorado aún más su soporte para SQL. Estos productos satisfacen las necesidades de "auditabilidad" y "transparencia de supervisión" de los datos, pero la desventaja es que aún no pueden evitar la eliminación y modificación de los datos en sí, y sólo pueden hacer que "las eliminaciones y modificaciones sean conocibles, además, la preservación"; de datos clave debe depender de copias completas de los nodos participantes Almacenamiento, los costos de almacenamiento son ligeramente más altos. Además, el diseño de la privacidad de los datos es insuficiente.
En vista de las deficiencias de los productos anteriores, IE ha explorado un camino diferente a través de la innovación tecnológica original y lanzó el producto "ImSQL" con derechos de propiedad intelectual independientes, con el objetivo de proporcionar un producto de almacenamiento confiable para garantizar verdaderamente esos datos no serán manipulados ni eliminados sin permiso.
ImSQL (Base de datos SQL inmutable) es una nueva solución confiable de almacenamiento de datos basada en blockchain y tecnología de almacenamiento distribuido, que resuelve perfectamente el problema de "prevenir la eliminación privada", "proteger la privacidad de los datos" y "reducir la pérdida de datos". Privacidad", "reducción de la seguridad de los datos" y otras cuestiones.
Blockchain es una nueva solución confiable de almacenamiento de datos basada en blockchain y tecnología de almacenamiento distribuido, que resuelve perfectamente el problema de "prevenir la eliminación privada", "proteger la privacidad de los datos", "reducir los costos de almacenamiento", etc. El problema central proporciona una ruta técnica confiable para el almacenamiento y el intercambio de datos confiables en la era del big data.
En comparación con los productos existentes, ImSQL tiene las siguientes ventajas destacadas:
1. Previene por completo la manipulación privada unilateral y la eliminación de datos. A través de la verificación multipartita tanto en el almacenamiento como en la recuperación, y evitando la manipulación y la eliminación durante el proceso de almacenamiento, la autenticidad y credibilidad de los datos están completamente protegidas, de modo que todas las partes involucradas en la aplicación puedan confiar entre sí y utilizar sus datos con confianza. , para que los datos puedan respaldar una trazabilidad y responsabilidad precisas.
2. Eliminar puntos únicos de falla. Cuando varias partes usan datos, también usan el mantenimiento de datos. Los datos no solo se almacenan en una parte, sino que también crean fundamentalmente un grupo compartido confiable de datos distribuidos, lo que no solo evita el riesgo de fallas en un solo punto, sino que también mejora la eficiencia. de intercambio de datos.
3. El almacenamiento fragmentado cumple con los requisitos de privacidad de los datos y evita que cualquier parte domine los datos completos, resolviendo así los problemas de privacidad de los datos que existen en el almacenamiento centralizado de la computación en la nube tradicional o en el almacenamiento de copias completas de blockchain. Los datos completos no están disponibles para ningún custodio de almacenamiento que no sea el propietario de los datos.
4. Excelente rendimiento de acceso a datos: la velocidad de escritura de un solo nodo de ImSQL puede alcanzar los 3000 TPS y la velocidad de lectura puede alcanzar los 10000 QPS. Además, ImSQL admite SQL, se escala horizontalmente, proporciona excelente rendimiento y experiencia de acceso y puede aprovechar la expansión del clúster para mejorar aún más estas métricas.
5. Para satisfacer las necesidades de acceso eficiente a big data como multimedia, ImSQL admite acceso eficiente, indexación eficiente y expansión eficiente. Es realmente capaz de lograr escenarios comerciales de big data y puede lograr confianza y. Almacenamiento eficiente de datos como vídeos, proporcionando así una experiencia de almacenamiento confiable sin precedentes para escenarios de videovigilancia.
6. El uso del diseño de fragmentación reduce en gran medida la presión de almacenamiento y el costo de cada participante del almacenamiento, lo que permite que más participantes tengan la oportunidad de unirse y participar en el ecosistema de intercambio de datos confiables en el sistema.
7. Arquitectura distribuida, compatible con nodos ligeros, incentivando la participación de más nodos. No hay supernodos y los nodos que participan en el almacenamiento tienen el mismo estado, lo que garantiza mejor la confiabilidad e invulnerabilidad del sistema. Además, si un nodo elige ejecutarse en modo de copia ligera, solo puede almacenar una parte de los datos, por lo que la presión sobre su propio almacenamiento se reducirá considerablemente. Por supuesto, la obligación de reducir el consumo de energía no se verá afectada en absoluto. .
ImSQL integra almacenamiento masivo, indexación rápida, atributos de base de datos y almacenamiento de datos escalables horizontalmente y características solidificadas de blockchain. Se espera que brinde una experiencia sin precedentes en muchas áreas de interés, como el almacenamiento, el intercambio y la conveniencia de datos confiables. , como lograr la interoperabilidad y la confianza mutua de los datos de todas las partes en la cadena de suministro, lograr la interoperabilidad de datos entre varios departamentos gubernamentales o grandes empresas y respaldar el almacenamiento masivo de datos relacionados con la trazabilidad confiable, etc.
Tomemos como ejemplo la construcción de big data del gobierno.
Cómo lograr una interconexión de datos eficiente entre muchos departamentos y entidades gubernamentales diferentes siempre ha sido un problema difícil. El enfoque actual a menudo requiere el establecimiento de un departamento independiente de big data, un sistema de almacenamiento de datos independiente, la recuperación de datos relevantes de diferentes entidades, su análisis, reconstrucción y luego visualización. Esto a menudo genera grandes gastos iniciales, incluidos gastos explícitos como personal, finanzas y materiales, así como gastos implícitos como personal, derechos, responsabilidades, intereses, costos de tiempo y paredes departamentales. Al mismo tiempo, la existencia de un departamento de big data independiente también significa que se necesita un tercero de confianza que respalde o incluso asuma la responsabilidad. Si en este caso se utiliza ImSQL como plataforma subyacente para la interoperabilidad de datos, esta tarea se puede completar de manera más eficiente, específicamente en los siguientes aspectos:
No hay necesidad de depender del respaldo de entidades de terceros: entre diferentes entidades Los datos intermedios se pueden escribir directamente en ImSQL, lo que significa que los datos se guardan y ya no pueden ser alterados ni eliminados por ninguna parte unilateral, lo que garantiza la disponibilidad, coherencia y credibilidad de otras entidades que acceden a los datos en en cualquier momento;