Cómo raspar datos de la web para mostrarlos en mi chatbot

Si no es una empresa multimillonaria, necesitará una fuente de dicha empresa.
Google es una fuente extremadamente buena, otra opción es Wolfram Alpha.

Para obtener resultados en tiempo real, necesita un motor de raspado confiable, buscaría Google Search Engine Scraper en PHP, rasparía millones de resultados de búsqueda orgánicos, es gratis y PHP. Simplemente puede implementarlo como servicio en segundo plano para su bot de chat.

Necesita extenderlo para el raspado de Google Knowledge-Graph, pero todo lo demás ya está funcionando.

Si tiene eso funcionando, tendrá acceso a una increíble cantidad de datos estructurados, todo lo que SIRI y Google Now tienen e incluso más que eso.
Clima, negocios, horarios de apertura, libros y películas, espectáculos y eventos, arquitectura, etc.

Otra opción es el raspado y análisis SERP por y para profesionales.
Es un servicio de raspado profesional, pero no es en tiempo real, tendrá resultados más lentos que con la solución de fabricación propia anterior.
La respuesta más rápida probablemente sea de alrededor de 8 segundos, pero puede ser más larga si la usa raramente.
Ya tiene Google Knowledge, por lo que los datos que tiene son perfectos para su chatbot.
Puede almacenar en caché los resultados para tenerlos en una base de datos local.

Así es como lo haría, una de esas soluciones.
Si la respuesta en tiempo real es importante, deberá ir con el n. ° 1

En caso de que esté interesado en raspar datos, le sugiero que use algunos servicios, ya que su propósito, por lo que he entendido, no es a corto plazo. Algunas compañías lo hacen por una tarifa de suscripción, proporcionando datos decentes para sus necesidades.

Otra opción pueden ser los bots, que hacen el mismo trabajo, excepto que necesitan un poco de fondo de codificación para crear. Dan el control general del proceso de raspado y la personalización.

Debe averiguar qué funciona mejor para su esfera, herramientas versus servicios, e implementarlo. Aquí hay un artículo que puede respaldar su investigación: Herramientas o servicios en línea: ¿Cómo hacer el raspado de datos?

También puede consultar AnswersEngine, ya que hace algo similar. Intenta contactarlos y tal vez cooperar.

Bueno, el raspado es solo la mitad del desafío y podría decirse que es la parte más fácil (vea la respuesta de Vern Verveine a Cómo construyo un chatbot de Python que extrae información de un sitio web, la guarda en una base de datos y, cuando un usuario chatea con el bot, ¿Un lenguaje de procesamiento natural analiza la consulta, recupera respuestas de la base de datos y se la muestra al usuario?)

El desafío más grande es quizás formatear los datos para una conversación. La gente no escribe párrafos largos y usa grupos de fragmentos cuando envía mensajes de texto. Un error que los creadores de chatbot suelen cometer es procesar cada entrada como un comando para activar una acción desde el bot. Así es como se ha hecho para saber con aplicaciones de escritorio y web, pero no es como se desarrolla una conversación normal entre 2 personas.

Las personas usan grupos de fragmentos y cuando un usuario envía mensajes de texto en grupos de fragmentos, el bot debe interpretarlos como una consulta en lugar de 4 o 5. Así es como lo hacemos en la vida real (espere a que la otra persona termine de hablar antes de responder)

Como puede suponer, es difícil de hacer, ¿cómo sabemos cuándo finaliza el fragmento? Piense en los datos que está raspando y si se pueden dividir lógicamente en trozos, entonces su bot probablemente sea mejor para eso

Si pregunta cómo extraer automáticamente los datos extraídos a su chatbot, mi consejo sería escribir el código usted mismo o encontrar algunas herramientas útiles para integrar sus datos al chatbot.

Si pregunta cómo raspar los datos que desea de sitios web como sitios web de noticias, sitios web de comercio electrónico como mencionó anteriormente, creo que tal vez podría recurrir a la herramienta de raspado web para obtener ayuda. Puede recurrir a la publicación Top 30 Free Web Scraping Software para obtener ayuda o utilizar la herramienta de raspado web Octoparse directamente.

Si está interesado, puede seguir el tutorial similar Raspado de datos de Walmart.com o Raspado de datos de sitios web con paginación (cadenas de consulta) (1) para aprender cómo hacerlo.

Si tiene más preguntas al usar Octoparse, puede unirse al Octoparse Users Club en Facebook directamente para obtener más ayuda.

Espero que esto pueda ayudarte.

Hay varias formas de extraer datos de la Web. Puede usar varias herramientas como Python, Improt.io, Scrapy, etc. Pero requieren conocimientos de programación o una gran cantidad de dinero de la suscripción mensual. Entonces, la mejor manera de hacer su trabajo de raspado es externalizar su proyecto a un Freelancer. He estado haciendo mi trabajo así durante casi un año. He contratado a varios profesionales independientes para hacer mis proyectos de raspado y quedé realmente satisfecho. Así que te sugiero que subcontrates tu trabajo. Aquí hay un enlace de Freelancer. Es muy muy profesional y confiable.

El mejor servicio de raspado de datos y minería.

El comentario asociado con la pregunta sugiere que le gustaría mostrar noticias en tiempo real o datos pre-rastreados de la web. En realidad, esto depende de los términos y condiciones del archivo robots.txt del sitio desde el que desea extraer datos.

Idealmente, si puede localizar algunos sitios de noticias, sitios de listado de productos y directorios que permiten el rastreo, los datos se pueden rastrear a través de un proveedor de servicios administrados como PromptCloud. Dado que el raspado web será manejado por una empresa que tiene experiencia en el dominio en este campo, puede concentrarse en hacer que el bot sea inteligente y la aplicación de esos datos.

Si su chatbot puede funcionar con API REST externa, puede usar servicios de raspado que tengan una API que admita el inicio remoto y la recuperación de datos (por ejemplo, Diggernaut – Convierta el contenido del sitio web en conjuntos de datos; nuestro servicio también admite datos a pedido, lo que significa que puede enviar solicitudes personalizadas para apuntar al sitio con una llamada API síncrona o asíncrona y obtener datos solo para esta solicitud específica) o crear el raspador usted mismo usando cualquier lenguaje de programación

More Interesting

¿Qué tipo de frenos usa el Tesla Roadster?

¿Existe un buen servicio en línea para la contratación externa de asesoría legal para nuevas empresas de Internet y tecnología?

¿Qué se necesita para transformar el código y la pila tecnológica de una empresa de monolito a uno distribuido y escalable en términos de infraestructura, especialmente para nuevas empresas de rápido crecimiento?

¿Los satélites de comunicación serán interrumpidos por aviones / drones solares que vuelan constantemente?

¿Cómo se ve la escena de startups tecnológicas en Medio Oriente?

¿Phoenix, Arizona se está convirtiendo en un punto caliente de nuevas empresas tecnológicas?

¿Cómo gestionan los CEO de productos la transición de involucrarse en la construcción las 24 horas del día, los 7 días de la semana, para dejarlo un poco, una vez que crece una startup tecnológica?

¿Cuántos fundadores de las compañías tecnológicas de más rápido crecimiento que tenemos hoy en día como Facebook, Twitter, LinkedIn y Pinterest tienen MBA?

¿Cómo será el desarrollo móvil en 2-5 años? ¿Cuánto convergerán iOS y Android?

Bootstrap Dallas: Al poner en marcha su inicio tecnológico, ¿en qué parte de su negocio vale la pena gastar dinero?

¿Cómo pueden monetizar empresas como WhatsApp y Snapchat para estar a la altura de su valoración?

¿Competirá Facebook con Skype?

¿Microsoft se está volviendo menos relevante?

¿Por qué no hay muchos (o ninguno) fundadores tecnológicos negros de 'rockstar'?

¿Cuáles son las mejores prácticas necesarias para lograr un sistema de gestión escolar exitoso?