Website als RAG-Quelle
Best Practices für heronOS RAG-Quellen: Inhalte müssen strukturiert, stabil und barrierefrei bereitgestellt werden, damit sie zuverlässig indexierbar und wiederverwendbar sind. Technische Standards zu Crawling, Metadaten, Performance und Rechtssicherheit sichern eine konsistente Nutzung.
- Crawlbarkeit und Rendering: Inhalte ohne Login/Pay-/JS-Gate; SSR oder Prerendering. robots.txt soll Crawling erlauben. Sitemap mit lastmod, optional RSS/Atom.
- Struktur und Semantik: sauberes HTML5 (main/article/section), konsistente H1–H3, kurze Abschnitte, stabile IDs/Anker pro Überschrift. Navigation/Footers als nav/aside markieren (Noise minimieren).
- Metadaten: title, meta description, lang, canonical, hreflang. JSON-LD (schema.org, z. B. Article/FAQPage/HowTo). “Letzte Aktualisierung” und Version im DOM.
- Stabilität: sprechende, permanente URLs; keine instabilen Query-Parameter; rel=canonical für Duplikate; konsistente Slugs.
- Änderungsdetektion: HTTP ETag/Last-Modified setzen; Sitemap lastmod pflegen; optional Changelog-Seiten.
- Inhalte für RAG: in sich geschlossene Abschnitte (ca. 300–800 Wörter), klare Begriffsdefinitionen, FAQs/Beispiele. Redundante Boilerplates vermeiden.
- Medien/Barrierefreiheit: Alt-Texte, Transkripte/Untertitel, Code in pre/code, Tabellen mit th/thead. PDFs zusätzlich als HTML anbieten.
- Auffindbarkeit: gute interne Verlinkung, paginierte Übersichten (rel=next/prev), auch PDFs/Datenblätter in der Sitemap.
- Performance/Betrieb: schnelle Auslieferung (Brotli/Gzip, HTTP/2/3), maßvolle Rate Limits (429 statt Blocken), klare Crawl-Policy dokumentieren.
- Recht/Policy: Nutzungsbedingungen erlauben Indexierung/Scraping. Keine sensiblen Bereiche per robots freigeben.