El Web Crawler está diseñado para indexar el contenido del sitio web para su uso en la plataforma Talkdesk incluidos los servicios Copilot y Autopilot lo que facilita la creación de un Knowledge Base integral a partir del contenido web.
Esta función permite la ingestión autónoma de contenido externo en Talkdesk. Admite sitios web públicos y protegidos por contraseña (autenticación básica). Configurar correctamente la Estrategia de rastreo es el paso más importante para garantizar que su Copilot y Autopilot reciban datos de alta calidad y relevantes sin indexar el "ruido web" innecesario.
Guía de configuración
Detalles de la fuente
- Nombre y descripción: Defina la identidad de la fuente.
- Autenticación: Seleccione Ninguna (pública) o Autenticación básica (usuario/contraseña) según la seguridad del sitio de destino.
Estrategia de rastreo
Elija cómo Talkdesk descubre e indexa su contenido. La configuración disponible cambia según el método que elija.
Guiado por el mapa del sitio (Recomendado)
Es la mejor opción para grandes empresas y la ingestión de datos limpios. En lugar de adivinar enlaces, el rastreador obtiene una lista específica de URL de su mapa de sitio XML. Esto ahorra tiempo y garantiza que solo indexará páginas válidas y canónicas.
Opciones de origen del mapa del sitio:
- Detección automática: Talkdesk analiza automáticamente las ubicaciones estándar (por ejemplo, /sitemap.xml, /sitemap_index.xml) y comprueba el archivo robots.txt en busca de referencias. Ideal para sitios que siguen las mejores prácticas de SEO estándar.
- Entrada de URL: Especifique manualmente las URL exactas de sus mapas de sitio.Admite hasta 10 URL de mapas de sitio.
- Carga de archivo: Sube directamente un archivo de mapa de sitio XML desde su computadora. El tamaño máximo del archivo es de 10 MB.
Configuración avanzada
- URL máxima por conector: (Por defecto: 2000). El rastreador se detiene una vez que alcanza este límite (Rango: 1–5000).
- Ignorar las restricciones de robots.txt: Cuando está activo, el rastreador procede a acceder a páginas explícitamente deshabilitadas por robots.txt, siempre que estén enumeradas en el mapa del sitio.
Recorrido automatizado por enlaces
Ideal para sitios web más pequeños, páginas de marketing sencillas o wikis no estructurados. El rastreador actúa como un bot de motor de búsqueda estándar: comienza en una URL de origen y sigue los enlaces de forma recursiva para descubrir páginas. Indique la URL de inicio para decidir dónde comienza el rastreador.
Configuración avanzada
- URL máximas por conector: (Predeterminado: 2000). El rastreador se detiene una vez que alcanza este límite (Rango: 1–5000).
- Profundidad de rastreo: (0-100). Define a cuántos "clics" Away la URL de inicio irá el rastreador. 0 = Solo la URL de inicio.
- Número máximo de enlaces por página: (Máx.: 5000). Limita el número de hipervínculos procesados en una sola página para evitar trampas de bucle de procesamiento.
- Ignorar las restricciones de robots.txt: Cuando está activo, el rastreador ignora las directivas estándar de Desallow en el archivo robots.txt del sitio.
Límites de rastreo
La función de reglas de ruta de URL proporciona un control detallado sobre qué páginas se permite que el rastreador indexe. Al definir patrones específicos, garantiza que el conector solo ingiera contenido de alto valor. Puede definir hasta 50 reglas por rastreador. Las reglas de exclusión tienen prioridad. Si una URL coincide con una regla de "Inclusión" y una regla de "Exclusión", no se rastreará.
Tipos de reglas
Puede configurar dos categorías de reglas:
-
Reglas de exclusión de ruta:
- Propósito: Bloquear secciones específicas de su sitio que no añaden valor o contienen información sensible o irrelevante.
- Comportamiento: Cualquier URL que coincida con estas reglas se descarta inmediatamente.
- Ejemplos estratégicos: Elimine páginas dinámicas como /resultados-de-búsqueda, /mi-cuenta, /carrito o /inicio-de-sesión.
-
Incluya solo reglas de ruta:
- Propósito: Limitar estrictamente el rastreador a una caja de arena específica.
- Comportamiento: Si añade alguna regla aquí, el rastreador solo incluirá páginas en la lista blanca. Solo indexará las páginas que coincidan con estas reglas (a menos que también estén excluidas).
- Ejemplo estratégico: Si su centro de ayuda está alojado en www.brand.com/support, establezca una regla de "Inclusión solo" para /support. El rastreador ignorará el resto de su sitio.
Lógica de coincidencia (Cómo crear una regla)
Al agregar una regla, debe seleccionar un operador de coincidencia. La interfaz admite cuatro tipos de lógica distintos para manejar escenarios simples y complejos:
| Operador | Cómo Funciona | Mejor caso de uso | Ejemplo (de la interfaz de usuario) |
| Contains | Combina si la cadena de texto aparece en cualquier lugar de la URL. | Bloqueo general de secciones del sitio. | /blog/ combina con site.com/blog/article-1 |
| Comienza con | Combina si la URL comienza exactamente con esta cadena. | Bloqueo del rastreador en un subdominio o directorio específico. | www.abc.com/docs coincide con www.abc.com/docs/api |
| Termina con | Coincide si la URL termina con esta extensión o cadena específica. | Exclusión de tipos de archivo específicos. | .pdf coincide con annual-report.pdf |
| Expresión regular | Utiliza «expresiones regulares» para una coincidencia de patrones avanzada y flexible. | Lógica compleja (por ejemplo, «Excluir URL con años de 4 dígitos»). | ^.*/old/.*$ coincide con cualquier URL que contenga un directorio «old» |
Procesamiento de documentos
Habilite la ingestión de activos non-HTML si es necesario:
- Documentos PDF / Word / PowerPoint: active estas opciones para extraer estos archivos si se encuentran en el dominio o subdominio del sitio.
Filtrado de páginas
En el filtrado de páginas, puede activar la opción “Eliminar encabezados y pies de página” para eliminar automáticamente estos tipos de componentes. Si desea un control más detallado, puede utilizar el mecanismo de filtrado de contenido avanzado descrito a continuación.
Filtrado de contenido avanzado (HTML/CSS)
La función de filtrado de contenido avanzado le permite controlar con precisión qué partes de una página web se extraen y cuáles se ignoran. Al utilizar etiquetas HTML y selectores CSS, puede Away ruido (como barras de navegación, anuncios o pies de página) y centrar el rastreador estrictamente en el contenido de alto valor que necesita.
Cómo funciona
Esta configuración consta de dos campos principales:
- Excluir elementos de página: Elimina partes específicas de la página antes de procesarla.
- Incluir solo elementos de página: Procesamiento restringido a áreas específicas de la página.
Información importante: La exclusión siempre tiene prioridad sobre la inclusión. Si un elemento coincide con las reglas en ambas casillas, se excluirá.
1. Excluir elementos de página
Utilice este campo para definir los elementos que deben eliminarse del HTML de la página antes de que el rastreador extraiga el texto. Esto es ideal para eliminar el contenido "de relleno" que aparece en cada página pero que no añade ningún valor único.
Casos de uso comunes:
- Eliminar los menús de navegación y las barras laterales.
- Eliminar los anuncios y los banners de cookies.
- Ocultar las secciones de comentarios o "publicaciones relacionadas".
Sintaxis: Ingrese una lista separada por comas de etiquetas HTML, nombres de clase (comience con .), o ID (comience con #).
Ejemplos:
| Objetivo | Selector a utilizar |
| Eliminar todos los scripts | guion |
| Elimine la barra de navegación | nav, .navbar, #main-menu |
| Elimine el pie de página y los anuncios | footer, .ad-banner, .sidebar |
| Eliminar un botón específico | button.subscribe-popup |
Ejemplo de entrada:
nav, footer, .cookie-consent, #advertisement-wrapper
2. Incluya solo los elementos de la página
Utilice este campo cuando desee que el rastreador ignore todo en la página, excepto las secciones específicas. Esto actúa como una lista blanca estricta. Si define selectores aquí, el rastreador descartará todo lo demás.
Casos de uso comunes:
- Extraer solo el texto del artículo principal de un blog.
- Capturar solo la descripción del producto y el precio de un sitio de comercio electrónico.
- Dirigirse a una tabla de datos específica.
Ejemplos:
| Objetivo | Selector a utilizar |
| Obtenga solo el artículo principal | Artículo, .post-content, main |
| Obtenga los detalles del producto | #product-description, .price |
| Obtenga solo el texto del cuerpo | #post-body |
Ejemplo de entrada:
Artículo, .contenido principal, h1
3. Cómo funcionan juntos la exclusión y la inclusión
El rastreador aplica estas reglas en un orden específico:
- Primero, examina su lista de inclusión. Aísla esas secciones específicas.
- En segundo lugar, examina su lista de exclusión. Analiza las secciones incluidas y elimina cualquier elemento que coincida con las reglas de exclusión.
Caso de uso: Limpiar una publicación de blog
Imagine que desea extraer una publicación de blog (artículo), pero dentro de ese artículo, hay un cuadro de «Suscríbase a nuestro boletín» (.newsletter-signup) que no desea.
- Incluir solo: artículo (Esto le indica al rastreador: " Away la barra lateral, el encabezado y el pie de página. Conserve solo el artículo").
- Excluya:.newsletter-signup (Esto le dice al rastreador: "Mire dentro del artículo y elimine el cuadro de suscripción al boletín").
Resultado: Obtiene el texto limpio del artículo sin el ruido del sitio circundante ni las interrupciones dentro del texto.