🌐Contexto de sitio web

Contexto de sitio web

Vincula un sitio web como fuente de conocimiento para la IA: Your Office AI lo rastrea, genera un resumen y lo indexa para que el asistente pueda citarlo junto a tus documentos subidos. Usa la misma canalización de recuperación que Conocimiento; gestiona tus fuentes desde la pestaña Contexto de sitio web en Integraciones o desde Conocimiento.

🔗Añadir una URLRegistra la fuente
🕷️RastrearDentro de tus límites
📝Resumen de IAMap-reduce, siempre
🧠IndexarSegún el modo RAG
💬Citado en el chatRespuestas fundamentadas
De una URL a respuestas citadas: la canalización de ingestión de contexto web.

Vincular un sitio web

  1. Abre Contexto de sitio web

    En Integraciones, cambia a la pestaña Contexto de sitio web (o añade una fuente web desde Conocimiento).

  2. Pega la URL

    Introduce el sitio o la página que quieres que la IA use como fuente.

  3. Configura los límites de rastreo y el modo RAG

    Elige la amplitud del rastreo y qué representación indexar. Los valores predeterminados razonables ya están rellenos.

  4. Ingestar

    Your Office AI rastrea dentro de los límites, genera el resumen de IA e indexa la fuente para su recuperación.

Un resumen de IA, siempre

Sea cual sea el modo que elijas, Your Office AI siempre genera un resumen de IA real de la fuente en el momento de la ingestión. Se produce mediante un proceso map-reduce sobre los fragmentos de página rastreados: cada fragmento se resume y luego los resúmenes se combinan, no mediante truncamiento simple. Esto significa que incluso un sitio grande se destila en una visión general fiel sobre la que la IA puede razonar.

ℹ️
El resumen y el índice son independientes

El resumen se genera cada vez. El modo RAG solo decide qué se almacena en el índice de recuperación: el resumen, el texto completo o ambos.

Tres modos RAG

El modo RAG controla qué representación de las páginas rastreadas se incluye en el índice de conocimiento usado para la recuperación:

ModoQué se indexaCuándo usarlo
Resumen (predeterminado)
summary
Solo el resumen de IA de la fuente: el índice más pequeño.Ideal cuando quieres lo esencial de un sitio para fundamentación sin indexar cada página.
Resumen + completo
summaryPlusFull
Tanto el resumen de IA como el texto completo de la página.Ideal cuando quieres fundamentación de alto nivel más la capacidad de recuperar pasajes exactos.
Completo
full
Solo el texto completo de la página, sin documento de resumen.Ideal cuando necesitas recuperación precisa a nivel de pasaje de todo lo rastreado.

Límites de rastreo

El rastreo está acotado por tres límites que estableces por fuente. Se validan al guardar y la fuente los recuerda para que puedas ver la amplitud con la que fue rastreada por última vez:

LímiteQué controla
Páginas máximasEl número máximo de páginas que una sola ingestión o actualización obtendrá del sitio.
Bytes máximos por páginaCuánto texto sin procesar se indexa por página cuando se usa el texto completo.
Profundidad de rastreoCuántos saltos de enlace se siguen desde la URL registrada. Profundidad 0 significa no rastrear: solo se indexa la página que registraste.
💡
Profundidad 0 = una sola página

Establece la profundidad de rastreo a 0 para indexar solo la página que registraste sin seguir ningún enlace: útil para una página de documentación o un artículo concreto.

Usar una fuente web

Una vez indexada, una fuente web funciona como cualquier otro conocimiento:

  • El asistente recupera y cita los pasajes más relevantes al responder, mediante búsqueda semántica con pgvector.
  • Adjúntala como contexto en el chat con #, del mismo modo que adjuntas una carpeta de conocimiento o un documento.
  • Una re-ingestión actualiza el rastreo, regenera el resumen y actualiza el índice.
ℹ️
Parte del módulo de Conocimiento

Las fuentes web comparten la canalización de recuperación de Conocimiento de extremo a extremo. Para subidas de documentos, modelos de incrustación y compartición de carpetas, consulta Base de conocimiento.