Chatbot con su propio Base de datos de conocimiento (TRAPO).
La base de conocimientos de un chatbot de DigElite se construye a partir de los documentos del cliente (manuales en PDF, archivos de Word, contenido del sitio web, preguntas frecuentes, estatutos y descripciones de servicios de OZG) y se consulta mediante una capa de Generación Aumentada de Recuperación (RAG). Cada respuesta incluye opcionalmente la fuente (documento + sección). Si el sistema no encuentra una fuente adecuada, el chatbot indica honestamente "No tengo información al respecto" en lugar de especular; este umbral es configurable para cada aplicación.
Las respuestas provienen de sus documentos, no del conocimiento del modelo.
La generación aumentada por recuperación es la solución arquitectónica al problema de la falta de información de los chatbots clásicos. En lugar de que el modelo de lenguaje responda por sí mismo, primero buscamos las secciones relevantes en los documentos del cliente, se las pasamos al modelo y luego dejamos que este formule una respuesta a partir de ellas.
1 — Indexación
Los documentos se dividen en secciones (fragmentos), se codifican semánticamente como incrustaciones vectoriales y se almacenan en una base de datos vectorial local (por ejemplo, PostgreSQL con pgvector, Qdrant, Chroma). Todo se aloja en el servidor del cliente.
2 — Recuperación
Para cada consulta, la pregunta se convierte en una representación vectorial y se compara con la base de datos vectorial. Las secciones más similares (normalmente entre 3 y 5) se recopilan como contexto para la respuesta.
3 — Generación de respuesta
El LLM (Aleph Alpha, Mistral, Llama) recibe una pregunta y secciones contextuales, y redacta una respuesta basándose únicamente en estas secciones. También se incluyen las fuentes; la trazabilidad está integrada, no se añade posteriormente.
De lo que ya tienes.
- PDF — Manuales, guías de usuario, documentos técnicos, descripciones de servicios de OZG, estatutos.
- Word / RTF — documentación interna, reglamento de contribuciones, preguntas frecuentes de la oficina.
- Excel / CSV — tablas estructuradas (por ejemplo, niveles de contribución, cronogramas de eventos).
- Contenido del sitio web — rastreado o directamente desde el contenido de WordPress (entradas, páginas, tipos de publicaciones personalizadas).
- Markdown / Texto plano — Contenido de la wiki, exportaciones a Confluence, documentación de GitHub.
- Fuentes de API — Conexión opcional a las API de conocimiento existentes (por ejemplo, datos internos de CRM, bases de datos de productos).
„"No tengo información sobre eso" — como una característica, no como un error.
El mayor riesgo de los chatbots de IA tradicionales es la invención libre de respuestas ("alucinación"). Con DigElite, el generador de respuestas está sujeto a un contrato: solo puede responder si la capa de recuperación encuentra fuentes coincidentes. Por debajo de un umbral de similitud configurable, el chatbot responde explícitamente: "No tengo información sobre eso en nuestra base de conocimientos. ¿Le gustaría hablar con un miembro de nuestro equipo?" y transfiere la conversación de forma estructurada.
„"Un chatbot que inventa cosas libremente es peligroso. Creamos chatbots que admiten con honestidad cuando desconocen algo; esa es la cualidad más importante que puede tener un chatbot empresarial.""
— Philipp Herrmann, fundador de DigElite
Qué preguntas deben hacer los clientes potenciales antes de la implementación.
¿Qué ocurre si nuestros documentos cambian con frecuencia?
La base de conocimientos se puede actualizar de forma incremental: basta con subir un nuevo PDF o modificar una página; el sistema solo reindexa las secciones modificadas, sin necesidad de reconstruirla por completo. Para contenido altamente dinámico (por ejemplo, fechas, precios), las fuentes de conocimiento se pueden conectar directamente a una base de datos o API para que las actualizaciones se apliquen en tiempo real.
¿Dónde se encuentran físicamente los datos de conocimiento?
En tu propia base de datos de WordPress o en la base de datos vectorial local de tu servidor. No se envía nada a un proveedor de indexación externo. Si utilizas una API-LLM (Aleph Alpha, Mistral La Plateforme), solo se transmiten las secciones contextuales relevantes junto con la pregunta durante su funcionamiento; no se transmite toda tu base de conocimientos.
¿Qué tan grande puede ser la base de conocimientos?
Los tamaños típicos para pymes, asociaciones y administraciones públicas (entre cientos y unos pocos miles de documentos, con un volumen de texto de 10 a 500 MB) no suponen ningún problema. Las bases de datos vectoriales pueden escalar hasta millones de fragmentos. Para bases de conocimiento muy grandes, en una consulta inicial analizaremos si es recomendable segmentarlas en varias áreas.
¿Podemos restringir la visibilidad del código fuente por grupo de usuarios?
Sí. La base de conocimientos es segmentable (por ejemplo, "público", "miembros", "personal interno"). En implementaciones multiusuario (organización principal con asociaciones regionales), un usuario de una asociación regional solo ve sus propios segmentos de conocimiento, además del contenido general de la organización principal. Los permisos se controlan mediante roles de WordPress.
Aquí puedes seguir leyendo.
Esta función forma parte de la familia de chatbots de DigElite; échale un vistazo. Descripción general del producto o los grupos temáticamente relacionados.
Másteres en Derecho alemanes y europeos
RAG solo despliega todo su potencial con un modelo adecuado.
Más información →
Chat de servicio en el sitio web
Canal más común para una base de conocimientos RAG.
Más información →
Chatbots de DigElite: Descripción general
Pilar con todos los temas del clúster.
Más información →
Quince minutos son suficientes para hacerse una idea.
Estaremos conversando en vivo con nuestro chatbot en nordzypern.live y les mostraremos cómo responde a documentos reales, cuándo dice honestamente "No lo sé" y cómo transfiere la llamada a un humano. Sin discursos de venta, sin diapositiva 47.
Mira el chatbot en directo y obtén una consulta inicial.