Me gustaría preguntar a los expertos sobre los principios de implementación del "sistema de recopilación XXX (noticias, novelas..._)"
Este sistema utiliza el lenguaje de marcado de la página web para localizar la página web de destino y establecer las reglas de recopilación según los requisitos. Hay tres tecnologías básicas principales:
1. La primera es la tecnología de implementación de almacenamiento centralizado e indexación de páginas web de Internet globalmente dispersas, la segunda es el uso de información vinculada entre sí entre páginas web, y la información semántica textual dentro de las páginas web y la información estructural para mejorar la calidad de los resultados de búsqueda.
2. Automatizar la extracción de información mediante aprendizaje automático;
3. Una de las tecnologías importantes para la extracción automatizada de relaciones: el método DIPRE.
Después de recopilar, generalmente después de recopilar la información que desea, este sistema puede almacenar la información localmente de la manera que necesite. Por supuesto, también puede optar por no almacenarla sino solo de forma remota a través de la URL. y echa un vistazo.
Si estás realmente interesado en esto, te recomiendo que vayas a un sitio web de sistema muy potente fabricado en China. También hay esquemas allí. O puedes descargarlo directamente y probarlo. "Espíritu de red"——/