Knowledge Management: Fuente Externa I Web Crawler

Web Crawler es una poderosa herramienta diseñada para indexar contenido de sitios web para su uso en la plataforma Talkdesk, incluidos los servicios Copilot y Autopilot, lo que facilita la creación de una Knowledge Base completa a partir del contenido web.

 

Funciones principales

  • Enhanced Content Extraction: Capaz de extraer encabezados, enlaces y tablas con precisión, garantizando datos con buen formato para su Knowledge Base.
  • Security: Solo es compatible con HTTPS y ofrece una gestión segura de las credenciales, específicamente para los sitios web que requieren autenticación básica.
  • Customizable Crawling: Los usuarios pueden definir el alcance del rastreo y establecer límites en el número de enlaces visitados por página, lo que ofrece un control preciso en el proceso de rastreo.

 

Opciones de configuración

Configuración básica

  • Username y Password: Son necesarios para acceder a sitios protegidos por autenticación básica. En este momento, solo se admite la autenticación básica.
  • URL: Facilita las URL de origen de los sitios web que desea indexar. Asegúrese de que estos sitios estén habilitados para HTTPS.

 

Configuración avanzada

  • Crawl Depth: Determina hasta qué punto el rastreador sigue los enlaces desde la página original.
  • Maximum Links per Page: Controla el número de enlaces visitados por página, lo que permite una indexación personalizada.

Ejemplo:

 

Configuración básica

  • Ring groups y Segments: Facilitan la categorización y organización del contenido indexado.
  • Initial Sync Time y Frequency: Programan la primera indexación y establecen la frecuencia con la que se debe volver a indexar el contenido para garantizar que la información esté actualizada.

 

Limitaciones

  • Tables: El rastreador admite tablas HTML con una estructura básica, pero no admite estilos personalizados.
  • Media Extraction: Se centra únicamente en el texto, ya que los elementos multimedia como imágenes, vídeos y audio no se extraen.
  • Iframes: Este Web Crawler no admite iframes, lo que significa que el contenido incrustado en ellos no será indexado.
  • Límites operativos:
      • Tamaño Máximo del Cuerpo de Respuesta HTTP: 50 MiB. Las respuestas más largas se ignoran para mantener el rendimiento.
      • Tamaño máximo del contenido por artículo: 260 KB. Los artículos más grandes se dividen en segmentos más pequeños.
      • Número máximo de artículos por sincronización: 40 000 artículos por ciclo de sincronización.
      • Duración máxima de la sincronización: 1 hora.
Volver ""
Por favor, inicie sesión para enviar una solicitud.