RAG erklärt: Wie KI Ihre Unternehmensdokumente versteht — ohne sie zu verraten
Retrieval Augmented Generation (RAG) macht KI zum Experten für Ihre Dokumente. Erfahren Sie, wie Vektordatenbanken, semantische Suche und Quellenangaben funktionieren.
Das Problem: KI weiß nichts über Ihr Unternehmen
Große Sprachmodelle wie GPT-4, Mistral Large oder Claude sind beeindruckend. Sie können Texte zusammenfassen, Fragen beantworten, Code schreiben und komplexe Zusammenhänge erklären. Doch sie haben eine fundamentale Schwäche: Sie wissen nichts über Ihr Unternehmen.
Das liegt an der Art, wie diese Modelle trainiert werden. Ein LLM (Large Language Model) wird auf öffentlich verfügbaren Texten aus dem Internet trainiert — Wikipedia, Bücher, Webseiten, Foren. Es kennt das deutsche Arbeitsrecht, die Hauptstadt von Frankreich und die Syntax von Python. Aber es kennt nicht:
- Ihr internes Betriebshandbuch
- Ihre Urlaubsregelung
- Den Vertrag mit Ihrem Lieferanten
- Ihre Standard-Arbeitsanweisungen (SOPs)
- Die Protokolle Ihrer letzten Vorstandssitzung
Der naheliegende Gedanke wäre, das Modell einfach mit Ihren Dokumenten nachzutrainieren — das sogenannte Fine-Tuning. Doch Fine-Tuning hat gravierende Nachteile:
- Kosten: Ein Fine-Tuning-Durchlauf für ein großes Sprachmodell kostet je nach Größe des Datensatzes zwischen 5.000 und 50.000 Euro — und muss bei jeder Aktualisierung wiederholt werden
- Datenschutz: Beim Fine-Tuning werden Ihre Daten in die Gewichte des Modells eingebrannt. Sie können einzelne Dokumente nicht mehr entfernen, ohne das gesamte Modell neu zu trainieren. Das steht in direktem Widerspruch zum Recht auf Löschung (Art. 17 DSGVO)
- Halluzination: Fine-Tuning reduziert Halluzinationen nicht zuverlässig. Das Modell „weiß“ zwar mehr, aber es kann weiterhin falsche Informationen mit hoher Konfidenz ausgeben, ohne dass nachvollziehbar ist, woher die Antwort stammt
- Aktualität: Zwischen dem Fine-Tuning und dem Einsatz können sich Dokumente ändern. Das Modell arbeitet dann mit veraltetem Wissen, ohne dass dies erkennbar ist
Es braucht einen anderen Ansatz — einen, der die Stärke von Sprachmodellen (Sprachverständnis, Textgenerierung) mit dem aktuellen Unternehmenswissen kombiniert, ohne Daten in das Modell einzubrennen. Genau das ist RAG.
Was ist RAG? Einfach erklärt
Retrieval Augmented Generation (RAG) wurde 2020 von Patrick Lewis und Kollegen bei Meta AI erstmals wissenschaftlich beschrieben (Lewis et al., „Retrieval-Augmented Generation for Knowledge-Intensive NLP Tasks“, NeurIPS 2020). Die Grundidee ist elegant einfach:
Statt das Modell alles wissen zu lassen, geben wir ihm bei jeder Frage die relevanten Informationen dazu.
Stellen Sie sich einen Forscher in einer Bibliothek vor. Der Forscher (das Sprachmodell) ist intelligent und kann komplexe Zusammenhänge verstehen. Aber er hat nicht jedes Buch der Bibliothek auswendig gelernt. Stattdessen geht er bei jeder Frage in die Bibliothek, sucht die relevanten Bücher heraus, liest die passenden Abschnitte — und formuliert dann eine fundierte Antwort mit Quellenangabe.
Genau so funktioniert RAG, in drei Schritten:
Schritt 1: Suchen (Retrieval)
Die Frage des Nutzers wird in eine mathematische Darstellung umgewandelt (ein sogenanntes Embedding — dazu gleich mehr) und mit allen Dokumenten in der Wissensdatenbank verglichen. Die relevantesten Textabschnitte werden identifiziert und abgerufen. Dieser Schritt dauert typischerweise unter 100 Millisekunden, selbst bei Hunderttausenden von Dokumenten.
Schritt 2: Abrufen (Retrieve & Rank)
Die gefundenen Textabschnitte werden nach Relevanz sortiert und auf die wichtigsten reduziert. Ein Reranking-Algorithmus stellt sicher, dass die wirklich passenden Abschnitte ganz oben stehen — nicht nur solche, die zufällig ähnliche Wörter enthalten. Typischerweise werden die 5 bis 15 relevantesten Abschnitte ausgewählt.
Schritt 3: Generieren (Generate)
Das Sprachmodell erhält die Frage des Nutzers zusammen mit den gefundenen Textabschnitten als Kontext. Es formuliert dann eine Antwort, die sich auf die bereitgestellten Quellen stützt. Jede Aussage kann auf ein konkretes Dokument zurückgeführt werden.
Der entscheidende Unterschied zu Fine-Tuning: Die Dokumente bleiben extern. Sie werden nicht in das Modell integriert, sondern bei Bedarf abgerufen. Das bedeutet: Sie können Dokumente jederzeit hinzufügen, aktualisieren oder löschen — die Änderung wird sofort wirksam, ohne dass das Modell neu trainiert werden muss.
Vektordatenbanken: Wie Maschinen Bedeutung verstehen
Das Herzstück jeder RAG-Pipeline ist die Vektordatenbank. Um zu verstehen, warum sie so wichtig ist, muss man verstehen, wie Maschinen Sprache „verstehen“ — oder genauer: wie sie semantische Ähnlichkeit berechnen.
Ein Embedding ist eine mathematische Darstellung eines Textes als Vektor — eine Liste von Zahlen, typischerweise zwischen 384 und 1536 Dimensionen. Diese Zahlen kodieren die Bedeutung des Textes, nicht seine Wörter. Zwei Sätze, die das Gleiche aussagen, haben ähnliche Vektoren — selbst wenn sie völlig unterschiedliche Wörter verwenden.
Ein Beispiel: Die Sätze „Wie ist die Urlaubsregelung?“ und „Was gilt für Ferienabwesenheiten?“ teilen kein einziges bedeutungstragendes Wort. Eine klassische Schlüsselwortsuche würde den zweiten Satz nicht finden, wenn man nach „Urlaubsregelung“ sucht. Eine Vektordatenbank hingegen erkennt, dass beide Sätze semantisch nahezu identisch sind — weil ihre Embeddings im hochdimensionalen Raum nahe beieinander liegen.
Die Berechnung der Ähnlichkeit erfolgt über die Cosine Similarity (Kosinusähnlichkeit): der Kosinus des Winkels zwischen zwei Vektoren im mehrdimensionalen Raum. Ein Wert von 1.0 bedeutet identische Bedeutung, 0.0 bedeutet kein Zusammenhang. In der Praxis gelten Werte über 0.75 als semantisch relevant.
Als Vektordatenbank hat sich in der Open-Source-Welt Qdrant als führende Lösung etabliert. Qdrant (geschrieben in Rust, verfügbar als Docker-Container oder als Managed Service) bietet:
- Millisekunden-Suche über Millionen von Vektoren dank HNSW-Indexierung (Hierarchical Navigable Small Worlds)
- Filterfähigkeit: Kombination von Vektorsuche mit klassischen Filtern (z.B. „Suche ähnliche Dokumente, aber nur aus der Abteilung Finanzen“)
- Tenant-Isolation: Jedes Unternehmen erhält eine eigene Collection — Daten verschiedener Mandanten können sich niemals vermischen
- Self-Hosting: Die gesamte Vektordatenbank läuft auf Ihrem eigenen Server. Keine Daten verlassen Ihre Infrastruktur
Die Qualität der Embeddings wird durch sogenannte MTEB-Benchmarks (Massive Text Embedding Benchmark, Muennighoff et al. 2023) gemessen. Aktuelle Spitzenmodelle wie multilingual-e5-large oder BGE-M3 erreichen auf deutschen Texten F1-Werte von über 65 % — das bedeutet, sie verstehen Bedeutungszusammenhänge in deutscher Sprache mit hoher Zuverlässigkeit.
RAG vs. Fine-Tuning: Warum Ihre Daten beim Kunden bleiben
Die Unterscheidung zwischen RAG und Fine-Tuning ist nicht nur technisch relevant, sondern hat unmittelbare datenschutzrechtliche Konsequenzen. Betrachten wir die beiden Ansätze im direkten Vergleich:
Fine-Tuning: Daten werden Teil des Modells
Beim Fine-Tuning werden Ihre Unternehmensdokumente verwendet, um die Gewichte eines neuronalen Netzes anzupassen. Die Information wird in das Modell eingebrannt — sie existiert danach nicht mehr als separater Datensatz, sondern als verteilte Muster in Milliarden von Parametern. Das hat mehrere Konsequenzen:
- Keine gezielte Löschung möglich: Wenn ein Mitarbeiter sein Recht auf Löschung nach Art. 17 DSGVO ausüben will, können Sie ein einzelnes Dokument nicht aus dem Modell entfernen. Sie müssten das gesamte Modell ohne dieses Dokument neu trainieren — ein Prozess, der Tage dauert und Tausende Euro kostet
- Daten-Leakage-Risiko: Fein-getunte Modelle können durch geschicktes Prompting dazu gebracht werden, Trainingsdaten wörtlich wiederzugeben (sog. „Training Data Extraction Attacks“, Carlini et al. 2021). Vertrauliche Informationen können so an unbefugte Nutzer gelangen
- Keine Mandantentrennung: Wenn das gleiche Modell für mehrere Unternehmen fein-getunt wird, besteht das Risiko, dass Wissen von Unternehmen A in Antworten für Unternehmen B erscheint
RAG: Daten bleiben extern und kontrollierbar
Bei RAG werden die Dokumente in einer separaten Datenbank gespeichert und dem Modell nur bei Bedarf bereitgestellt. Die Trennung zwischen Modell und Daten bleibt vollständig erhalten:
- Gezielte Löschung jederzeit möglich: Ein Dokument aus der Vektordatenbank zu entfernen dauert Millisekunden. Die nächste Anfrage wird dieses Dokument nicht mehr als Quelle verwenden. Art. 17 DSGVO ist vollständig umsetzbar
- Kein Daten-Leakage: Das Sprachmodell hat keinen dauerhaften Zugang zu Ihren Dokumenten. Es sieht nur die Abschnitte, die für die aktuelle Frage relevant sind. Prompting-Angriffe können keine Trainingsdaten extrahieren, weil keine Trainingsdaten im Modell existieren
- Vollständige Mandantentrennung: Jedes Unternehmen hat seine eigene Collection in der Vektordatenbank. Die Zugriffssteuerung erfolgt auf Datenbankebene — physisch getrennt, nicht nur logisch
- Sofortige Aktualität: Wenn ein Dokument aktualisiert wird, wird der alte Embedding-Vektor durch den neuen ersetzt. Die nächste Anfrage arbeitet sofort mit dem aktuellen Stand
Für Unternehmen, die unter der DSGVO operieren, ist RAG der einzige architektonisch saubere Ansatz. Fine-Tuning mag in bestimmten Szenarien Vorteile haben (z.B. für die Stilanpassung des Modells), aber für die Integration vertraulicher Unternehmensdaten ist es datenschutzrechtlich nicht vertretbar.
Quellenangabe: Jede Antwort zeigt, woher sie kommt
Eines der größten Probleme von KI-Systemen ist die sogenannte Halluzination — das Modell generiert eine Antwort, die plausibel klingt, aber sachlich falsch ist. Bei allgemeinem Wissen ist das ärgerlich; bei Unternehmensentscheidungen kann es fatale Folgen haben. Stellen Sie sich vor, ein Mitarbeiter fragt die KI nach der korrekten Kündigungsfrist und erhält eine falsche Antwort.
RAG löst dieses Problem durch transparente Quellenangaben. Da das Modell seine Antwort auf konkrete Textabschnitte stützt, die aus der Wissensdatenbank abgerufen wurden, kann jede Aussage auf ihr Quelldokument zurückgeführt werden.
In der Praxis sieht das so aus:
- Der Nutzer stellt eine Frage: „Wie viele Urlaubstage stehen mir zu?“
- Die RAG-Pipeline findet den relevanten Abschnitt im Betriebshandbuch (Seite 23, Abschnitt 4.2: „Urlaubsanspruch“)
- Das Modell antwortet: „Laut dem Betriebshandbuch (Abschnitt 4.2) stehen Ihnen bei einer 5-Tage-Woche 30 Urlaubstage pro Kalenderjahr zu.“
- Neben der Antwort wird die Quelle angezeigt: Dokumentname, Abschnitt, Seitenzahl. Der Nutzer kann das Originaldokument mit einem Klick öffnen und die Aussage verifizieren
Dieser Mechanismus schafft Vertrauen. Der Nutzer muss der KI nicht blind vertrauen — er kann jede Antwort selbst prüfen. Und wenn das Modell keine passende Quelle findet, sollte es ehrlich antworten: „Dazu habe ich in der Wissensdatenbank keine Information gefunden.“ Eine ehrliche „Ich weiß nicht“-Antwort ist unendlich wertvoller als eine halluzinierte „Antwort“.
Transparenz ist nicht nur ein Feature — sie ist eine Vertrauensarchitektur. Unternehmen, die KI für interne Wissensprozesse einsetzen, müssen sicherstellen können, dass keine falschen Informationen unkontrolliert im Unternehmen zirkulieren. Quellenangaben sind die Grundlage dafür.
Praxisbeispiel: 500-Seiten-Handbuch in 2 Sekunden durchsucht
Theorie ist gut — Praxis ist besser. Stellen Sie sich folgendes Szenario vor:
Ein mittelständisches Unternehmen mit 200 Mitarbeitern hat ein Betriebshandbuch mit 500 Seiten. Es enthält alles: Arbeitszeiten, Urlaubsregelungen, Reisekostenrichtlinien, IT-Sicherheitsvorschriften, Compliance-Vorgaben, Organigramme, Prozessbeschreibungen. Das Handbuch wird zweimal im Jahr aktualisiert.
Bisher: Ein neuer Mitarbeiter hat eine Frage zur Dienstreise-Abrechnung. Er sucht im 500-Seiten-PDF nach Schlüsselwörtern, findet drei mögliche Stellen, liest jeweils den Kontext, ist unsicher welche Regelung aktuell gilt, und fragt schließlich einen Kollegen — der ebenfalls nicht sicher ist. Zeitaufwand: 15–30 Minuten für eine einfache Frage.
Mit RAG: Der Mitarbeiter tippt in den KI-Assistenten: „Wie rechne ich eine Dienstreise mit dem eigenen PKW ab?“
Was im Hintergrund passiert:
- 0–50 ms: Die Frage wird in einen Embedding-Vektor umgewandelt. Gleichzeitig generiert das System per HyDE (Hypothetical Document Embeddings) ein hypothetisches Antwortsegment, um die Suche zu verbessern
- 50–150 ms: Die Vektordatenbank durchsucht alle Abschnitte des Handbuchs. Semantische Suche findet auch Treffer unter „Fahrtkostenerstattung“ und „Kilometerabrechnung“ — Begriffe, die der Mitarbeiter nicht verwendet hat
- 150–300 ms: Ein Reranking-Algorithmus sortiert die Ergebnisse nach Relevanz. Die Reisekostenrichtlinie (Abschnitt 7.3) wird als relevantester Treffer identifiziert
- 300–2000 ms: Das Sprachmodell formuliert eine präzise Antwort: „Laut Reisekostenrichtlinie (Abschnitt 7.3) wird für Dienstreisen mit dem eigenen PKW eine Pauschale von 0,30 EUR pro Kilometer erstattet. Die Abrechnung erfolgt über das Formular F-RK-03 im Intranet. Einzureichen sind: Reiseanlass, Route, Kilometerstand vor/nach der Fahrt. Einreichungsfrist: 4 Wochen nach Reiseende.“
Gesamtdauer: unter 2 Sekunden. Die Antwort ist präzise, aktuell, und verweist auf das Quelldokument. Der Mitarbeiter kann den zitierten Abschnitt mit einem Klick öffnen und verifizieren.
Hochgerechnet auf ein Unternehmen mit 200 Mitarbeitern, die im Durchschnitt 3 solcher Fragen pro Woche haben: Das sind 600 Anfragen pro Woche, die statt jeweils 20 Minuten nur noch 30 Sekunden dauern. Die Zeitersparnis beträgt über 190 Stunden pro Woche — das Äquivalent von fast 5 Vollzeitstellen.
Wie Nexoria RAG einsetzt
Die RAG-Implementierung von Nexoria geht über den grundlegenden Ansatz deutlich hinaus. Wir haben in den letzten Monaten eine Enterprise-Pipeline entwickelt, die mehrere fortgeschrittene Techniken kombiniert, um die Antwortqualität zu maximieren:
Hybrid Search (Dense + Sparse Vectors)
Wir kombinieren zwei Suchverfahren: Die dense search (semantische Vektorsuche) findet Bedeutungszusammenhänge, während die sparse search (BM25-basierte Schlüsselwortsuche) exakte Begriffe und Fachterminologie zuverlässig matcht. Die Kombination beider Verfahren erreicht eine höhere Trefferquote als jedes einzelne Verfahren allein — insbesondere bei Fachbegriffen, die in Embeddings unterrepräsentiert sein können.
HyDE — Hypothetical Document Embeddings
Bevor die eigentliche Suche beginnt, generiert ein schnelles Sprachmodell ein hypothetisches Antwortsegment auf die Frage des Nutzers. Dieses hypothetische Dokument wird dann als zusätzlicher Suchvektor verwendet. Die Idee: Ein hypothetisches Antwortsegment ist der gesuchten Passage ähnlicher als die ursprüngliche Frage. Diese Technik, erstmals beschrieben von Gao et al. (2022, „Precise Zero-Shot Dense Retrieval without Relevance Labels“), verbessert die Retrievalqualität um 15–25 % in unseren internen Benchmarks.
Query Expansion
Nutzer formulieren ihre Fragen oft unvollständig oder mehrdeutig. Die Query Expansion generiert automatisch verwandte Suchbegriffe und alternative Formulierungen. Aus „Wie krank melden?“ wird: [„Krankmeldung Ablauf“, „Arbeitsunfähigkeitsbescheinigung einreichen“, „Wer muss bei Krankheit informiert werden“]. Jede dieser erweiterten Queries durchsucht die Vektordatenbank separat — die Ergebnisse werden zusammengeführt und dedupliziert.
Reranking
Die Ergebnisse aus Hybrid Search, HyDE und Query Expansion werden durch einen Reranking-Schritt sortiert. Dabei bewertet ein Cross-Encoder-Modell die Relevanz jedes Abschnitts für die ursprüngliche Frage. Das Reranking ist rechenintensiver als die initiale Vektorsuche, arbeitet aber wesentlich präziser — es betrachtet Frage und Dokument gemeinsam, nicht nur deren separate Embeddings.
KI-Gedächtnis (Tenant Memory)
Die RAG-Pipeline lernt über die Zeit: Häufig gestellte Fragen und ihre validierten Antworten werden in einem Semantic Cache gespeichert. Wenn eine semantisch ähnliche Frage erneut gestellt wird (Cosine Similarity über 0.92), wird die gecachte Antwort sofort geliefert — ohne erneute Suche und LLM-Verarbeitung. Das reduziert die Antwortzeit auf unter 100 Millisekunden und spart Rechenressourcen.
Das Ergebnis: Ab dem ersten hochgeladenen Dokument erreicht die Nexoria RAG-Pipeline eine Antwortgenauigkeit von über 93 % in unseren internen Tests — gemessen daran, ob die KI-Antwort den korrekten Quellenabschnitt zitiert und die Frage sachlich richtig beantwortet. Durch den Semantic Cache und die kontinuierliche Optimierung steigt dieser Wert mit der Nutzung weiter an.
Die gesamte Pipeline läuft auf europäischen Servern (Hetzner, Deutschland). Das Embedding-Modell, die Vektordatenbank (Qdrant), das Sprachmodell (Mistral) und der Semantic Cache — alles bleibt innerhalb der EU. Ihre Dokumente verlassen zu keinem Zeitpunkt den europäischen Rechtsraum.
Quellen: Lewis et al. (2020), „Retrieval-Augmented Generation for Knowledge-Intensive NLP Tasks“, NeurIPS. Gao et al. (2022), „Precise Zero-Shot Dense Retrieval without Relevance Labels“. Muennighoff et al. (2023), „MTEB: Massive Text Embedding Benchmark“. Carlini et al. (2021), „Extracting Training Data from Large Language Models“. Qdrant Dokumentation (qdrant.tech/documentation). DSGVO Art. 17 (Recht auf Löschung).
Testen Sie die intelligente Suche selbst — mit Nexoria Base ab 29€/Monat erhalten Sie Zugriff auf die komplette RAG-Pipeline. Kostenlose Beratung vereinbaren.
Bereit für DSGVO-konforme KI?
In 30 Minuten zeigen wir Ihnen, wie Nexoria in Ihrem Arbeitsalltag funktioniert — kostenlos und unverbindlich.
Kostenlose Demo vereinbaren