DigElite Chatbots · Wissensdatenbank · RAG

Chatbot mit eigener Wissensdatenbank (RAG).

Die Wissensbasis eines DigElite-Chatbots entsteht aus den eigenen Dokumenten des Kunden — PDF-Handbüchern, Word-Dateien, Webseiteninhalten, FAQs, Satzungen, OZG-Leistungsbeschreibungen — und wird mit einer Retrieval-Augmented-Generation-Schicht (RAG) abgefragt. Jede Antwort enthält auf Wunsch die Quellenangabe (Dokument + Abschnitt). Findet das System keine passende Quelle, sagt der Chatbot ehrlich „Dazu habe ich keine Information" statt zu halluzinieren — die Schwelle ist je Anwendung konfigurierbar.

Chatbot live ansehen Zur Chatbot-Übersicht

Was RAG technisch leistet

Antworten aus Ihren Dokumenten — nicht aus dem Modellwissen.

Retrieval-Augmented Generation ist die Architektur-Antwort auf das Halluzinations-Problem klassischer Chatbots. Statt das Sprachmodell selbst antworten zu lassen, suchen wir zuerst die passenden Abschnitte in den Kunden-Dokumenten, übergeben sie dem Modell und lassen es daraus eine Antwort formulieren.

1 — Indizierung

Dokumente werden in Abschnitte (Chunks) zerlegt, semantisch als Vektor-Embedding kodiert und in einer lokalen Vektordatenbank (z. B. PostgreSQL mit pgvector, Qdrant, Chroma) gespeichert. Liegt alles im Kunden-Hosting.

2 — Retrieval

Bei jeder Anfrage wird die Frage in ein Embedding umgewandelt und mit der Vektordatenbank verglichen. Die ähnlichsten Abschnitte (typisch 3–5) werden als Kontext für die Antwort zusammengestellt.

3 — Antwort-Generierung

Das LLM (Aleph Alpha, Mistral, Llama) bekommt Frage + Kontext-Abschnitte und schreibt eine Antwort, die ausschließlich auf diesen Abschnitten basiert. Quellen werden mit ausgegeben — Nachvollziehbarkeit ist eingebaut, nicht nachgerüstet.

Welche Dokument-Formate funktionieren

Aus dem, was Sie ohnehin haben.

PDF — Handbücher, Bedienungsanleitungen, Whitepapers, OZG-Leistungsbeschreibungen, Satzungen.
Word / RTF — interne Dokumentationen, Beitragsordnungen, Geschäftsstellen-FAQs.
Excel / CSV — strukturierte Tabellen (z. B. Beitrags-Stufen, Veranstaltungs-Pläne).
Webseiten-Inhalte — gecrawlt oder direkt aus dem WordPress-Inhalt (Posts, Pages, Custom-Post-Types).
Markdown / Plain-Text — Wiki-Inhalte, Confluence-Exporte, GitHub-Dokumentation.
API-Quellen — auf Wunsch Anbindung an bestehende Wissens-APIs (z. B. interne CRM-Daten, Produktdatenbanken).

Halluzinations-Schutz

„Dazu habe ich keine Information" — als Feature, nicht als Bug.

Das größte Risiko klassischer KI-Chatbots ist die freie Erfindung von Antworten („Halluzination"). Bei DigElite ist der Antwort-Generator vertraglich gebunden: er darf nur antworten, wenn die Retrieval-Schicht passende Quellen findet. Unterhalb einer konfigurierbaren Ähnlichkeitsschwelle antwortet der Chatbot ausdrücklich „Dazu habe ich in unserer Wissensbasis keine Information — möchten Sie mit einem Mitarbeiter sprechen?" — und übergibt strukturiert.

„Ein Chatbot, der frei erfindet, ist gefährlich. Wir bauen Chatbots, die ehrlich sagen, wenn sie etwas nicht wissen — das ist die wichtigste Eigenschaft, die ein Business-Chatbot haben kann."

— Philipp Herrmann, Gründer DigElite

Häufige Fragen

Was Interessenten vor dem Einsatz fragen.

Was, wenn unsere Dokumente sich häufig ändern?

Die Wissensbasis ist inkrementell aktualisierbar: Sie laden ein neues PDF hoch oder ändern eine Seite — das System indiziert nur die geänderten Abschnitte neu, kein kompletter Re-Bau nötig. Bei sehr dynamischen Inhalten (z. B. Termine, Preise) lassen sich Wissensquellen direkt an eine Datenbank oder API anbinden, damit Aktualisierungen in Echtzeit greifen.

Wo liegen die Wissens-Daten physisch?

In Ihrer eigenen WordPress-Datenbank bzw. der lokalen Vektordatenbank auf Ihrem Server. Nichts wird zu einem externen Indexierungs-Anbieter geschickt. Wenn Sie ein API-LLM (Aleph Alpha, Mistral La Plateforme) nutzen, werden im laufenden Betrieb nur die jeweils relevanten Kontext-Abschnitte mit der Frage zusammen übertragen — keine pauschale Komplett-Übermittlung Ihrer Wissensbasis.

Wie groß darf die Wissensbasis sein?

Für KMU/Verbände/Verwaltungen typische Größen (hunderte bis wenige tausend Dokumente, 10–500 MB Text) sind unproblematisch. Vektordatenbanken skalieren bis in den Millionen-Chunk-Bereich. Bei sehr großen Wissensbasen prüfen wir vorab im Erstgespräch, ob eine Segmentierung in mehrere Bereiche sinnvoll ist.

Können wir Quellen-Sichtbarkeit pro Nutzer-Gruppe einschränken?

Ja. Die Wissensbasis ist segmentierbar (z. B. „öffentlich", „Mitglieder", „interne Mitarbeiter"). Bei mehrmandantenfähigem Einsatz (Dachverband mit Landesverbänden) sieht ein Landesverbands-Nutzer nur seine eigenen Wissens-Segmente plus die übergeordneten Dachverbands-Inhalte. Die Berechtigungssteuerung läuft über die WordPress-Rollen.

Verwandte Themen

Wo Sie weiterlesen.

Diese Funktion gehört zur DigElite-Chatbot-Familie — schauen Sie sich die Produkt-Übersicht oder die thematisch nahen Cluster an.

Deutsche und europäische LLMs

RAG entfaltet erst mit einem passenden Modell die volle Wirkung.

Mehr erfahren →

Service-Chat auf der Webseite

Häufigster Kanal für eine RAG-Wissensbasis.

Mehr erfahren →

DigElite Chatbots — Übersicht

Pillar mit allen Cluster-Themen.

Mehr erfahren →

15 Minuten reichen für den Eindruck.

Wir schreiben unseren eigenen Chatbot auf nordzypern.live live an und zeigen Ihnen, wie er aus echten Dokumenten antwortet, wo er ehrlich „weiß ich nicht" sagt und wie er an einen Menschen übergibt. Kein Sales-Pitch, kein Folie 47.

Chatbot live ansehen & Erstgespräch