Saltar al contenido

Agencia de IA de Osnabrück Automatización y flujos de trabajo Diseño web compatible con BFSG Westerkappeln · Región dentro de 100 km de Osnabrück · En toda Alemania

Chatbots de DigElite · Base de conocimientos · RAG

Chatbot con su propio Base de datos de conocimiento (TRAPO).

La base de conocimientos de un chatbot de DigElite se construye a partir de los documentos del cliente (manuales en PDF, archivos de Word, contenido del sitio web, preguntas frecuentes, estatutos y descripciones de servicios de OZG) y se consulta mediante una capa de Generación Aumentada de Recuperación (RAG). Cada respuesta incluye opcionalmente la fuente (documento + sección). Si el sistema no encuentra una fuente adecuada, el chatbot indica honestamente "No tengo información al respecto" en lugar de especular; este umbral es configurable para cada aplicación.

Lo que RAG puede lograr técnicamente

Las respuestas provienen de sus documentos, no del conocimiento del modelo.

La generación aumentada por recuperación es la solución arquitectónica al problema de la falta de información de los chatbots clásicos. En lugar de que el modelo de lenguaje responda por sí mismo, primero buscamos las secciones relevantes en los documentos del cliente, se las pasamos al modelo y luego dejamos que este formule una respuesta a partir de ellas.

1 — Indexación

Los documentos se dividen en secciones (fragmentos), se codifican semánticamente como incrustaciones vectoriales y se almacenan en una base de datos vectorial local (por ejemplo, PostgreSQL con pgvector, Qdrant, Chroma). Todo se aloja en el servidor del cliente.

2 — Recuperación

Para cada consulta, la pregunta se convierte en una representación vectorial y se compara con la base de datos vectorial. Las secciones más similares (normalmente entre 3 y 5) se recopilan como contexto para la respuesta.

3 — Generación de respuesta

El LLM (Aleph Alpha, Mistral, Llama) recibe una pregunta y secciones contextuales, y redacta una respuesta basándose únicamente en estas secciones. También se incluyen las fuentes; la trazabilidad está integrada, no se añade posteriormente.

¿Qué formatos de documento funcionan?

De lo que ya tienes.

  • PDF — Manuales, guías de usuario, documentos técnicos, descripciones de servicios de OZG, estatutos.
  • Word / RTF — documentación interna, reglamento de contribuciones, preguntas frecuentes de la oficina.
  • Excel / CSV — tablas estructuradas (por ejemplo, niveles de contribución, cronogramas de eventos).
  • Contenido del sitio web — rastreado o directamente desde el contenido de WordPress (entradas, páginas, tipos de publicaciones personalizadas).
  • Markdown / Texto plano — Contenido de la wiki, exportaciones a Confluence, documentación de GitHub.
  • Fuentes de API — Conexión opcional a las API de conocimiento existentes (por ejemplo, datos internos de CRM, bases de datos de productos).
Protección contra las alucinaciones

„"No tengo información sobre eso" — como una característica, no como un error.

El mayor riesgo de los chatbots de IA tradicionales es la invención libre de respuestas ("alucinación"). Con DigElite, el generador de respuestas está sujeto a un contrato: solo puede responder si la capa de recuperación encuentra fuentes coincidentes. Por debajo de un umbral de similitud configurable, el chatbot responde explícitamente: "No tengo información sobre eso en nuestra base de conocimientos. ¿Le gustaría hablar con un miembro de nuestro equipo?" y transfiere la conversación de forma estructurada.

„"Un chatbot que inventa cosas libremente es peligroso. Creamos chatbots que admiten con honestidad cuando desconocen algo; esa es la cualidad más importante que puede tener un chatbot empresarial.""

— Philipp Herrmann, fundador de DigElite

Preguntas frecuentes

Qué preguntas deben hacer los clientes potenciales antes de la implementación.

¿Qué ocurre si nuestros documentos cambian con frecuencia?

La base de conocimientos se puede actualizar de forma incremental: basta con subir un nuevo PDF o modificar una página; el sistema solo reindexa las secciones modificadas, sin necesidad de reconstruirla por completo. Para contenido altamente dinámico (por ejemplo, fechas, precios), las fuentes de conocimiento se pueden conectar directamente a una base de datos o API para que las actualizaciones se apliquen en tiempo real.

¿Dónde se encuentran físicamente los datos de conocimiento?

En tu propia base de datos de WordPress o en la base de datos vectorial local de tu servidor. No se envía nada a un proveedor de indexación externo. Si utilizas una API-LLM (Aleph Alpha, Mistral La Plateforme), solo se transmiten las secciones contextuales relevantes junto con la pregunta durante su funcionamiento; no se transmite toda tu base de conocimientos.

¿Qué tan grande puede ser la base de conocimientos?

Los tamaños típicos para pymes, asociaciones y administraciones públicas (entre cientos y unos pocos miles de documentos, con un volumen de texto de 10 a 500 MB) no suponen ningún problema. Las bases de datos vectoriales pueden escalar hasta millones de fragmentos. Para bases de conocimiento muy grandes, en una consulta inicial analizaremos si es recomendable segmentarlas en varias áreas.

¿Podemos restringir la visibilidad del código fuente por grupo de usuarios?

Sí. La base de conocimientos es segmentable (por ejemplo, "público", "miembros", "personal interno"). En implementaciones multiusuario (organización principal con asociaciones regionales), un usuario de una asociación regional solo ve sus propios segmentos de conocimiento, además del contenido general de la organización principal. Los permisos se controlan mediante roles de WordPress.

Quince minutos son suficientes para hacerse una idea.

Estaremos conversando en vivo con nuestro chatbot en nordzypern.live y les mostraremos cómo responde a documentos reales, cuándo dice honestamente "No lo sé" y cómo transfiere la llamada a un humano. Sin discursos de venta, sin diapositiva 47.

Mira el chatbot en directo y obtén una consulta inicial.
Reserva una cita