Was, wenn unsere Dokumente sich häufig ändern?

Die Wissensbasis ist inkrementell aktualisierbar: Sie laden ein neues PDF hoch oder ändern eine Seite — das System indiziert nur die geänderten Abschnitte neu, kein kompletter Re-Bau nötig. Bei sehr dynamischen Inhalten (z. B. Termine, Preise) lassen sich Wissensquellen direkt an eine Datenbank oder API anbinden, damit Aktualisierungen in Echtzeit greifen.

Wo liegen die Wissens-Daten physisch?

In Ihrer eigenen WordPress-Datenbank bzw. der lokalen Vektordatenbank auf Ihrem Server. Nichts wird zu einem externen Indexierungs-Anbieter geschickt. Wenn Sie ein API-LLM (Aleph Alpha, Mistral La Plateforme) nutzen, werden im laufenden Betrieb nur die jeweils relevanten Kontext-Abschnitte mit der Frage zusammen übertragen — keine pauschale Komplett-Übermittlung Ihrer Wissensbasis.

Wie groß darf die Wissensbasis sein?

Für KMU/Verbände/Verwaltungen typische Größen (hunderte bis wenige tausend Dokumente, 10–500 MB Text) sind unproblematisch. Vektordatenbanken skalieren bis in den Millionen-Chunk-Bereich. Bei sehr großen Wissensbasen prüfen wir vorab im Erstgespräch, ob eine Segmentierung in mehrere Bereiche sinnvoll ist.

Können wir Quellen-Sichtbarkeit pro Nutzer-Gruppe einschränken?

Ja. Die Wissensbasis ist segmentierbar (z. B. „öffentlich", „Mitglieder", „interne Mitarbeiter"). Bei mehrmandantenfähigem Einsatz (Dachverband mit Landesverbänden) sieht ein Landesverbands-Nutzer nur seine eigenen Wissens-Segmente plus die übergeordneten Dachverbands-Inhalte. Die Berechtigungssteuerung läuft über die WordPress-Rollen.

Chatbots de DigElite · Base de conocimientos · RAG

Chatbot con su propio Base de datos de conocimiento (TRAPO).

La base de conocimientos de un chatbot de DigElite se construye a partir de los documentos del cliente (manuales en PDF, archivos de Word, contenido del sitio web, preguntas frecuentes, estatutos y descripciones de servicios de OZG) y se consulta mediante una capa de Generación Aumentada de Recuperación (RAG). Cada respuesta incluye opcionalmente la fuente (documento + sección). Si el sistema no encuentra una fuente adecuada, el chatbot indica honestamente "No tengo información al respecto" en lugar de especular; este umbral es configurable para cada aplicación.

Mira el chatbot en directo Ir a la descripción general del chatbot

Lo que RAG puede lograr técnicamente

Las respuestas provienen de sus documentos, no del conocimiento del modelo.

La generación aumentada por recuperación es la solución arquitectónica al problema de la falta de información de los chatbots clásicos. En lugar de que el modelo de lenguaje responda por sí mismo, primero buscamos las secciones relevantes en los documentos del cliente, se las pasamos al modelo y luego dejamos que este formule una respuesta a partir de ellas.

1 — Indexación

Los documentos se dividen en secciones (fragmentos), se codifican semánticamente como incrustaciones vectoriales y se almacenan en una base de datos vectorial local (por ejemplo, PostgreSQL con pgvector, Qdrant, Chroma). Todo se aloja en el servidor del cliente.

2 — Recuperación

Para cada consulta, la pregunta se convierte en una representación vectorial y se compara con la base de datos vectorial. Las secciones más similares (normalmente entre 3 y 5) se recopilan como contexto para la respuesta.

3 — Generación de respuesta

El LLM (Aleph Alpha, Mistral, Llama) recibe una pregunta y secciones contextuales, y redacta una respuesta basándose únicamente en estas secciones. También se incluyen las fuentes; la trazabilidad está integrada, no se añade posteriormente.

¿Qué formatos de documento funcionan?

De lo que ya tienes.

PDF — Manuales, guías de usuario, documentos técnicos, descripciones de servicios de OZG, estatutos.
Word / RTF — documentación interna, reglamento de contribuciones, preguntas frecuentes de la oficina.
Excel / CSV — tablas estructuradas (por ejemplo, niveles de contribución, cronogramas de eventos).
Contenido del sitio web — rastreado o directamente desde el contenido de WordPress (entradas, páginas, tipos de publicaciones personalizadas).
Markdown / Texto plano — Contenido de la wiki, exportaciones a Confluence, documentación de GitHub.
Fuentes de API — Conexión opcional a las API de conocimiento existentes (por ejemplo, datos internos de CRM, bases de datos de productos).

Protección contra las alucinaciones

„"No tengo información sobre eso" — como una característica, no como un error.

El mayor riesgo de los chatbots de IA tradicionales es la invención libre de respuestas ("alucinación"). Con DigElite, el generador de respuestas está sujeto a un contrato: solo puede responder si la capa de recuperación encuentra fuentes coincidentes. Por debajo de un umbral de similitud configurable, el chatbot responde explícitamente: "No tengo información sobre eso en nuestra base de conocimientos. ¿Le gustaría hablar con un miembro de nuestro equipo?" y transfiere la conversación de forma estructurada.

„"Un chatbot que inventa cosas libremente es peligroso. Creamos chatbots que admiten con honestidad cuando desconocen algo; esa es la cualidad más importante que puede tener un chatbot empresarial.""

— Philipp Herrmann, fundador de DigElite

Preguntas frecuentes

Qué preguntas deben hacer los clientes potenciales antes de la implementación.

¿Qué ocurre si nuestros documentos cambian con frecuencia?

La base de conocimientos se puede actualizar de forma incremental: basta con subir un nuevo PDF o modificar una página; el sistema solo reindexa las secciones modificadas, sin necesidad de reconstruirla por completo. Para contenido altamente dinámico (por ejemplo, fechas, precios), las fuentes de conocimiento se pueden conectar directamente a una base de datos o API para que las actualizaciones se apliquen en tiempo real.

¿Dónde se encuentran físicamente los datos de conocimiento?

En tu propia base de datos de WordPress o en la base de datos vectorial local de tu servidor. No se envía nada a un proveedor de indexación externo. Si utilizas una API-LLM (Aleph Alpha, Mistral La Plateforme), solo se transmiten las secciones contextuales relevantes junto con la pregunta durante su funcionamiento; no se transmite toda tu base de conocimientos.

¿Qué tan grande puede ser la base de conocimientos?

Los tamaños típicos para pymes, asociaciones y administraciones públicas (entre cientos y unos pocos miles de documentos, con un volumen de texto de 10 a 500 MB) no suponen ningún problema. Las bases de datos vectoriales pueden escalar hasta millones de fragmentos. Para bases de conocimiento muy grandes, en una consulta inicial analizaremos si es recomendable segmentarlas en varias áreas.

¿Podemos restringir la visibilidad del código fuente por grupo de usuarios?

Sí. La base de conocimientos es segmentable (por ejemplo, "público", "miembros", "personal interno"). En implementaciones multiusuario (organización principal con asociaciones regionales), un usuario de una asociación regional solo ve sus propios segmentos de conocimiento, además del contenido general de la organización principal. Los permisos se controlan mediante roles de WordPress.

Temas relacionados

Aquí puedes seguir leyendo.

Esta función forma parte de la familia de chatbots de DigElite; échale un vistazo. Descripción general del producto o los grupos temáticamente relacionados.

Másteres en Derecho alemanes y europeos

RAG solo despliega todo su potencial con un modelo adecuado.

Más información →

Chat de servicio en el sitio web

Canal más común para una base de conocimientos RAG.

Más información →

Chatbots de DigElite: Descripción general

Pilar con todos los temas del clúster.

Más información →

Quince minutos son suficientes para hacerse una idea.

Estaremos conversando en vivo con nuestro chatbot en nordzypern.live y les mostraremos cómo responde a documentos reales, cuándo dice honestamente "No lo sé" y cómo transfiere la llamada a un humano. Sin discursos de venta, sin diapositiva 47.

Mira el chatbot en directo y obtén una consulta inicial.