Verknüpfen Sie eine Website als KI-Wissensquelle: Your Office AI crawlt sie, erstellt eine Zusammenfassung und indexiert sie, damit der Assistent sie neben Ihren hochgeladenen Dokumenten zitieren kann. Es handelt sich um dieselbe Abrufpipeline wie bei Wissen – verwalten Sie Ihre Quellen im Tab Website-Kontext unter Integrationen oder über Wissen.
Wechseln Sie in Integrationen zum Tab „Website-Kontext" (oder fügen Sie eine Website-Quelle über Wissen hinzu).
Geben Sie die Website oder Seite ein, die die KI als Quelle verwenden soll.
Wählen Sie die Crawl-Tiefe und die zu indexierende Darstellung. Sinnvolle Standardwerte sind vorausgefüllt.
Your Office AI crawlt innerhalb der Limits, erstellt die KI-Zusammenfassung und indexiert die Quelle für den Abruf.
Egal welchen Modus Sie wählen – Your Office AI erstellt immer eine echte KI-Zusammenfassung der Quelle beim Ingestieren. Sie wird durch ein Map-Reduce-Verfahren über die gecrawlten Seitenblöcke erzeugt: Jeder Block wird zusammengefasst, dann werden die Zusammenfassungen kombiniert – nicht durch einfaches Kürzen. So destilliert selbst eine große Website zu einem verlässlichen Überblick, über den die KI schlussfolgern kann.
Die Zusammenfassung wird jedes Mal erstellt. Der RAG-Modus entscheidet nur, was im Abrufindex gespeichert wird – die Zusammenfassung, der vollständige Text oder beides.
Der RAG-Modus bestimmt, welche Darstellung der gecrawlten Seiten in den für den Abruf verwendeten Wissensindex gelangt:
| Modus | Was indexiert wird | Wann verwenden |
|---|---|---|
Zusammenfassung (Standard)summary | Nur die KI-Zusammenfassung der Quelle – der kleinste Index. | Optimal, wenn Sie den Kern einer Website für die Fundierung benötigen, ohne jede Seite zu indexieren. |
Zusammenfassung + VolltextsummaryPlusFull | Sowohl die KI-Zusammenfassung als auch der vollständige Seitentext. | Optimal, wenn Sie übergeordnete Fundierung und die Fähigkeit benötigen, genaue Passagen abzurufen. |
Volltextfull | Nur der vollständige Seitentext – kein Zusammenfassungsdokument. | Optimal, wenn Sie präzisen, passagengenauen Abruf über alles Gecrawlte benötigen. |
Das Crawlen ist durch drei Limits begrenzt, die Sie pro Quelle festlegen. Sie werden beim Speichern validiert, und die Quelle merkt sie sich, damit Sie die Crawl-Tiefe des letzten Laufs nachvollziehen können:
| Limit | Was es steuert |
|---|---|
| Max. Seiten | Die maximale Anzahl Seiten, die eine einzelne Ingestion oder Aktualisierung von der Website abruft. |
| Max. Bytes pro Seite | Wie viel Rohtext pro Seite indexiert wird, wenn Volltext verwendet wird. |
| Crawl-Tiefe | Wie viele Link-Hops von der registrierten URL aus verfolgt werden. Tiefe 0 bedeutet kein Crawlen – es wird nur die registrierte Seite indexiert. |
Setzen Sie die Crawl-Tiefe auf 0, um nur die registrierte Seite zu indexieren, ohne Links zu folgen – praktisch für eine einzelne Dokumentationsseite oder einen Artikel.
Nach der Indexierung verhält sich eine Website-Quelle wie jedes andere Wissen:
# an – genauso wie einen Wissensordner oder ein Dokument.Website-Quellen teilen die Wissen-Abrufpipeline von Anfang bis Ende. Für Dokument-Uploads, Einbettungsmodelle und Ordnerfreigaben siehe Wissensdatenbank.