Web Crawler es una poderosa herramienta diseñada para indexar contenido de sitios web para su uso en la plataforma Talkdesk, incluidos los servicios Copilot y Autopilot, lo que facilita la creación de una Knowledge Base completa a partir del contenido web.
Funciones principales
- Enhanced Content Extraction: Capaz de extraer encabezados, enlaces y tablas con precisión, garantizando datos con buen formato para su Knowledge Base.
- Security: Solo es compatible con HTTPS y ofrece una gestión segura de las credenciales, específicamente para los sitios web que requieren autenticación básica.
- Customizable Crawling: Los usuarios pueden definir el alcance del rastreo y establecer límites en el número de enlaces visitados por página, lo que ofrece un control preciso en el proceso de rastreo.
Opciones de configuración
Configuración básica
- Username y Password: Son necesarios para acceder a sitios protegidos por autenticación básica. En este momento, solo se admite la autenticación básica.
- URL: Facilita las URL de origen de los sitios web que desea indexar. Asegúrese de que estos sitios estén habilitados para HTTPS.
Configuración avanzada
- Crawl Depth: Determina hasta qué punto el rastreador sigue los enlaces desde la página original.
- Maximum Links per Page: Controla el número de enlaces visitados por página, lo que permite una indexación personalizada.
Ejemplo:
Configuración básica
- Ring groups y Segments: Facilitan la categorización y organización del contenido indexado.
- Initial Sync Time y Frequency: Programan la primera indexación y establecen la frecuencia con la que se debe volver a indexar el contenido para garantizar que la información esté actualizada.
Limitaciones
- Tables: El rastreador admite tablas HTML con una estructura básica, pero no admite estilos personalizados.
- Media Extraction: Se centra únicamente en el texto, ya que los elementos multimedia como imágenes, vídeos y audio no se extraen.
- Iframes: Este Web Crawler no admite iframes, lo que significa que el contenido incrustado en ellos no será indexado.
-
Límites operativos:
-
- Tamaño Máximo del Cuerpo de Respuesta HTTP: 50 MiB. Las respuestas más largas se ignoran para mantener el rendimiento.
- Tamaño máximo del contenido por artículo: 260 KB. Los artículos más grandes se dividen en segmentos más pequeños.
- Número máximo de artículos por sincronización: 40 000 artículos por ciclo de sincronización.
- Duración máxima de la sincronización: 1 hora.
-