El web scraping es una técnica utilizada para extraer información de sitios web de manera automatizada. A través de scripts y herramientas especializadas, se recopilan datos estructurados que pueden utilizarse para análisis, inteligencia de negocio o automatización de procesos. Conceptos clave en este ámbito incluyen los bots de scraping, parsers, APIs y headless browsers, que permiten acceder y organizar la información de manera eficiente.
Sin embargo, esta práctica presenta desafíos como la detección y bloqueo por parte de los sitios web, cambios en la estructura de las páginas y el manejo de contenido dinámico. También requiere un marco ético y legal claro, ya que algunas restricciones como los términos de servicio de los sitios web o regulaciones de protección de datos deben ser respetadas. Herramientas avanzadas como ChatGPT Search y Deep Search están facilitando este proceso, permitiendo búsquedas más profundas y contextuales en grandes volúmenes de información.
Este tema fue analizado por Edgar Mesa, Data Scientist en MIOTI Data & AI Services, en pasada conferencia online en colaboración con MIOTI.
Edgar explica que entre el 80% y el 90% de los datos disponibles hoy en día no están estructurados, lo que representa un desafío enorme para las empresas. Además, estos datos crecen a un ritmo del 55% al 65% anual, lo que incrementa aún más la complejidad de su gestión.
El 95% de las empresas reconocen que lidiar con esta clase de información representa un problema importante. Según el ponente, el análisis de datos no estructurados requiere mucho tiempo, debido principalmente a dos factores: su carácter repetitivo y los altos costes derivados del tiempo y la infraestructura necesaria.
Estos datos, al no tener una estructura clara, requieren revisión humana. Muchas veces las tareas asociadas a este análisis son repetitivas y generan cansancio o saturación en quienes las realizan. Además, hay un coste en recursos humanos (contratación de personal para el análisis) y otro en infraestructura (por el volumen de almacenamiento requerido, en gigas o terabytes).
Edgar define el web scraping como la técnica de extraer datos públicos desde diferentes URLs, teniendo en cuenta el tipo de página web. Este proceso suele dividirse en tres fases:
Entre los casos de uso más comunes, se encuentran la investigción de tendencias de mercado, la detección de oportunidades, la promoción de marca o la monitorización de la competencia.
El ponente aclara la diferencia: el web scraping es el acto de extraer datos (manualmente o de forma automatizada) de una página web. Incluso copiar y pegar información puede considerarse scraping.
Por otro lado, el web crawling se refiere a la navegación automatizada dentro de los sitios web, generalmente realizada por bots. Este rastreo sirve para descubrir páginas nuevas o actualizar el contenido indexado. No se considera "crawling" cuando la navegación la realiza una persona.
Edgar indica que una de las principales limitaciones históricas de los modelos como ChatGPT ha sido su incapacidad para responder sobre hechos posteriores a su fecha de entrenamiento. Esto podía generar respuestas incorrectas o directamente la negativa del modelo a responder.
Para resolverlo, herramientas como Perplexity comenzaron a integrar búsquedas en internet en tiempo real hace más de año y medio. En el caso de ChatGPT, desde noviembre de 2024, existe la funcionalidad de "Search GPT", que permite buscar simultáneamente en múltiples URLs para ofrecer respuestas más actualizadas y relevantes.
Este motor también permite al usuario revisar las fuentes utilizadas para construir la respuesta, añadiendo una capa de verificación y transparencia. Edgar señala que, en España, Search GPT trabaja con partners como Prisa, Google Maps, entre otros, lo que enriquece la experiencia del usuario y mejora el formato visual de las respuestas.
Gracias a la integración con Google Maps, por ejemplo, es posible recibir respuestas a preguntas como “¿restaurantes italianos cerca de mí?” y ver un mapa interactivo con enlaces para visitar webs, revisar menús o hacer reservas. Además, al integrar YouTube, se pueden ver videos directamente desde la herramienta.
El ponente también menciona la funcionalidad de Deep Research, una herramienta que permite realizar búsquedas más profundas y complejas en internet. Este sistema utiliza técnicas como “chain of thought”, que descomponen un problema en pasos, planifican y utilizan herramientas iterativas para encontrar la mejor solución.
Estos procesos pueden tardar hasta 5 o 6 minutos en generar una respuesta, y a menudo los resultados vienen en forma de reportes extensos. Para acceder, se debe hacer clic en el botón “deep research”, ubicado en la parte inferior del cuadro de texto en ChatGPT.
Edgar recomienda tener especial precaución con los datos cuantitativos, ya que esta funcionalidad puede cometer errores en cifras y estadísticas. También aclara que no siempre está disponible en la versión gratuita.
El ponente sugiere una estrategia útil para analizar páginas web de la competencia usando ChatGPT: en lugar de pedirle directamente que analice una URL (lo que puede causar errores o respuestas incompletas), es mejor descargar el HTML de la web y subirlo a la herramienta.
Una alternativa es extraer solo el texto visible de la web, lo cual reduce considerablemente las alucinaciones o errores. Sin embargo, Edgar aclara que este método puede dejar fuera parte del contenido, como listas completas de productos o servicios.
Lo ideal, según Edgar, es acompañar estos documentos con un prompt claro, en el que se indique exactamente qué campos deben aparecer en el fichero generado (por ejemplo: nombre del producto, precio, descripción, etc).
El ponente es claro al afirmar que no todos los procesos se pueden automatizar al 100%. Sin embargo, incluso lograr automatizar parcialmente tareas tediosas o repetitivas ya supone un avance significativo, permitiendo a las personas enfocarse en otras responsabilidades y tareas más estratégicas o creativas.
Finalmente, Edgar indica que, al menos en España, no existe legislación específica que prohíba el web scraping. Muchas empresas lo utilizan de forma legítima para obtener información pública. Sin embargo, hay que tener cuidado, ya que otras normativas podrían hacerlo ilegal en ciertos contextos.
Por ejemplo, enviar un correo no es ilegal, pero hacer spam sí lo es. De igual forma, hacer scraping no es delito per se, pero si se usa para extraer datos personales sin consentimiento, infringir derechos de autor o sobrecargar un servidor, podría tener consecuencias legales.
Edgar es graduado en Computer Science por Eastern Illinois University (EE.UU.). Con una sólida trayectoria en análisis de datos e Inteligencia Artificial, ha liderado proyectos innovadores que aceleran la transformación digital en diversas industrias. Su especialización abarca análisis de efectos promocionales, forecasting, computer vision y modelado con Inteligencia Artificial Generativa, aplicando técnicas avanzadas para optimizar la toma de decisiones y el rendimiento empresarial.