25 años investigando sistemas multiagente: los 3 problemas que la industria de agentes IA todavía no ha resuelto
TL;DR
Los modelos mejoran pero siguen alucinando entre un 8% y un 86%. El comportamiento emergente hace que los agentes sean impredecibles. Y sin trazabilidad, no cumples el AI Act. Tres problemas reales, con datos de 2026.
Joaquín Peña Siles·2 de junio de 2026·12 min de lectura
Se habla mucho de IA, de Agentes, del impacto de la automatización con IA en el trabajo... Pero poco se habla del motivo por el que todas estas promesas no están dando los resultados que se podría esperar.
Hay un conjunto de barreras que están frenando el avance y que pocos están poniendo sobre la mesa.
Más allá de los análisis que hacen los grandes analistas de mercado con empresas americanas, en este artículo quiero enseñarte estos obstáculos desde una visión práctica basada en mi experiencia de más de 25 años investigando en IA y digitalizando con y sin IA (últimos 15 años) empresas de todos los tamaños. Empresas reales, europeas, españolas, con las que te puedes sentir identificado.
Si no me conoces mucho, déjame que te cuente un poco para que puedas ver que esto no es un artículo hecho con IA, sino basado en muchos años de experiencia.
Llevo más de 25 años investigando en la Universidad de Sevilla, y los últimos 15, liderando proyectos de digitalización, automatización y mejora de la productividad con sistemas multiagente de IA. En ese tiempo he visto como el concepto de "agente" se ponía de moda y desaparecía varias veces.
Hoy, con los LLM (Large Language Models) como Gemini, Chat GPT o Claude, el concepto de agente ha vuelto con más fuerza que nunca.
Pero también con los problemas que hace 25 años ya afrontábamos en investigación y que hoy aún están más vigentes si cabe, más algunos nuevos.
En este artículo intento condensar mi experiencia de más de dos décadas en investigación en sistemas multiagente inteligentes, productividad empresarial, gestión por procesos y proyectos de digitalización y automatización con IA con empresas pequeñas y grandes.
Es el resultado de más de dos décadas de investigación, una tesis doctoral, varios años diseñando sistemas de agentes para la NASA, y cientos de horas trabajando con empresas que intentan automatizar procesos reales con IA desde antes de que ChatGPT se pusiera de "moda".
Si gestionas un equipo o empresa y te interesa cómo la IA se debe usar para automatizar y optimizar tus procesos de trabajo, si llevas tiempo probando herramientas o formándote y no has conseguido automatizar gran cosa, es probable que reconozcas lo que viene a continuación.
1 · Primer Obstáculo: la tecnología actual no vale para automatizar procesos reales
Un agente, o un chat, con la capacidad actual de los modelos de lenguaje, no es capaz de resolver la mayoría de los procesos de trabajo de una empresa media.
Las limitaciones de ventana de contexto y de capacidad de razonamiento hacen que si le encargo a un agente un proceso con varios pasos o con mucha información de entrada, el sistema supere su límite de capacidad y empiece a perder coherencia, a irse por las ramas, y a producir resultados impredecibles.
Los modelos han mejorado. En tareas de resumen con fuentes — donde el modelo puede "copiar" del original — la tasa de alucinación ha bajado, pero sigue siendo significativa: Gemini 2.5 Flash alucinó en un 7,8% de los casos, Llama 4 Maverick en un 8,2%, GPT-4o en un 9,6% y Claude Sonnet en un 10,3% (Vectara Hallucination Leaderboard, mayo 2026).
Pero en cuanto sales de resúmenes y pides razonamiento abierto sobre documentos reales — que es exactamente lo que necesita cualquier proceso empresarial — las cifras se disparan. En el benchmark AA-Omniscience de Artificial Analysis (6.000 preguntas factuales en 42 áreas), GPT-5.5 alucinó en el 86% de los casos, Gemini 3.1 Pro en el 50%, y Claude Opus 4.7 en el 36%. Y en el benchmark FACTS Grounding de Google DeepMind, ningún modelo superó el 70% de precisión factual con documentos largos.
Un 8-10% de error en resúmenes y un 36-86% en razonamiento abierto hacen que cualquier informe técnico firmado sea una ruleta. Esto es inadmisible en la mayoría de los contextos profesionales.
En mi tesis doctoral vimos también este problema y que la clave para asegurar la estabilidad, controlar el comportamiento emergente (ver problema siguiente) y dotar al sistema de mayor capacidad para resolver problemas complejos era el principio de divide y vencerás: tomas un problema grande, lo divides en problemas más pequeños, los resuelves por separado y después combinas los resultados haciendo las comprobaciones que correspondan para asegurar que cada paso se ha realizado correctamente. Si la tarea que encargo a un agente es de menor complejidad, las probabilidades de alucinar disminuyen o se eliminan si es suficientemente sencilla.
Aplicado a agentes IA, esto significa que en lugar de pedirle a un solo modelo generalista que resuelva un proceso completo de principio a fin, diseñas una cadena de agentes especializados. Uno lee la documentación y extrae la información relevante. Otro cruza esa información con la normativa aplicable. Otro genera el borrador del informe con citas trazables a las fuentes originales. Otro verifica que las citas son correctas. Y en cada paso donde la decisión tiene consecuencias, el sistema se detiene y espera la aprobación de un humano antes de continuar.
Pero esto no se hace solo. Esto implica una infraestructura que sea capaz de coordinar a los agentes, validar y combinar sus resultados, gestionar que no pierdan contexto entre pasos, y garantizar que el output de un agente es un input válido para el siguiente.
ChatGPT no tiene esa capa. n8n y Make conectan herramientas, pero no orquestan razonamiento. La mayoría de los "agentes" que se venden hoy son un modelo grande con un prompt largo. Y eso, para procesos empresariales reales con documentación propia y normativa específica, no funciona.
El problema no es que el modelo sea malo. Es que le estamos pidiendo a una interfaz de conversación que haga trabajo de orquestación multiagente.
2 · Segundo Obstáculo: el comportamiento emergente (impredecible)
Los sistemas de agentes tienen un problema que la investigación conoce desde hace décadas pero que la industria actual de "agentes IA" ignora casi por completo: el comportamiento emergente, o comportamiento caótico.
El comportamiento emergente es un problema distinto al de las alucinaciones, es un problema inherente a los sistemas que tienen muchas piezas que interactúan entre sí.
La analogía más conocida es el efecto mariposa. El aleteo de una mariposa en Brasil puede provocar un huracán en la otra esquina del mundo. Lo que ilustra es que pequeños cambios en el comportamiento de un agente tienen efecto en el siguiente, y el siguiente del siguiente, que se van amplificando hasta provocar resultados impredecibles.
Esto fue exactamente lo que estuve trabajando en mi tesis doctoral para la NASA, en el Goddard Space Flight Center. La agencia estaba diseñando misiones futuras de exploración de Marte y del cinturón de asteroides basadas en enjambres de pequeñas naves o vehículos autónomos. El reto era evidente: si una pequeña reacción de un agente al entorno, afectaba a otro agente, y a su vez este a otro, y otro, ... el resultado final se volvía impredecible, resultado inadmisible para las misiones de la NASA; una nave que toma una decisión inesperada y provoca una cadena de reacciones no deseada en el resto estando en el espacio no tiene un operador humano al lado para corregirla.
En el contexto empresarial esto también es inadmisible. Necesitamos certeza de que si los agentes que defino se ponen a resolver uno de mis procesos, el resultado sea predecible y se comporte dentro de las normas de mi empresa. Si le pido al sistema que genere un informe técnico basado en mi documentación y mi normativa sectorial, no puedo aceptar que una variación en la formulación de la pregunta produzca un resultado radicalmente diferente. O peor aún, un resultado que parezca correcto pero contenga datos que no existen o que ignore datos porque las decisiones que van tomando cada uno de los agentes me alejan del objetivo inicial.
Y aquí entra el amplificador que no teníamos en la era pre-LLM: las alucinaciones. Un modelo de lenguaje que genera texto con confianza, sin citar fuentes, sin avisar cuando no está seguro, y que puede inventar normativa, sentencias judiciales o datos técnicos sin que el usuario lo detecte a primera vista. Cuando unes comportamiento emergente con alucinaciones, tienes una combinación que en un entorno empresarial regulado no es solo arriesgada. Es inasumible.
El comportamiento emergente es un problema conocido y estudiado en la investigación multiagente. Pero la industria actual de agentes IA, la que vende "agentes" como si fueran chatbots mejorados, lo ignora casi completamente.
3 · Tercer Obstáculo: la opacidad de las decisiones de la IA
Los dos problemas anteriores —comportamiento emergente y limitaciones del modelo— generan una necesidad que en la investigación multiagente es obvia pero que en el mercado actual de agentes IA apenas se aborda: la trazabilidad.
Necesitamos mecanismos para ver qué decisiones y qué pasos han ejecutado los agentes para asegurarnos, al menos las primeras veces, de que no está alucinando, de que no hay comportamiento emergente, y de que los pasos y decisiones que ha seguido son los correctos. Necesitamos esa confianza verificable para poder delegar con garantía. Necesitamos incluso aprobación humana (human in the loop) de que el plan que van a ejecutar los agentes hace justo lo que queremos tras revisarlo cuidadosamente.
Pero esto no es solo una necesidad operativa. Es una obligación legal.
El AI Act europeo, en vigor desde agosto de 2024, exige transparencia algorítmica y capacidad de auditar los pasos que ha dado un sistema automatizado para arrojar un resultado. El Reglamento General de Protección de Datos exige lo mismo para cualquier decisión automatizada que afecte a personas.
Y sin embargo, a día de hoy, la mayoría de las herramientas que existen hacen esto de manera opaca. Como mucho, te muestran el "proceso de razonamiento" del agente en una ventana lateral. Pero ese proceso de razonamiento es una reconstrucción narrativa que el propio modelo genera, no un registro verificable de qué fuentes consultó, qué datos encontró, qué reglas aplicó y por qué descartó alternativas.
No es lo mismo que el sistema te diga "he analizado la normativa y he concluido X" que poder ver exactamente qué artículos de qué normativa leyó, qué fragmentos extrajo, y por qué eligió uno sobre otro. Lo primero es narrativa. Lo segundo es auditoría.
La pregunta que nos deberíamos hacer antes de mirar las funcionalidades o el precio es: "¿Esto es legal?"
La trazabilidad no es una característica deseable. Es un requisito legal y empresarial que ninguna empresa debería obviar.
4 · ¿Qué tecnología necesitamos para automatizar procesos?
Los tres problemas anteriores —comportamiento emergente, limitaciones del modelo, y opacidad— no se resuelven con un modelo más grande o más inteligente. Se resuelven con una arquitectura diferente.
En nuestra investigación, tanto en la tesis como en los años posteriores de transferencia (proyectos con empresas reales), demostramos que los cuatro principios que reducen la impredecibilidad y aumentan la capacidad de resolución en sistemas multiagente son:
Primero: dividir el proceso en pasos pequeños y verificables. Un agente que intenta resolver un problema de 15 pasos en una sola ejecución va a fallar en algún punto intermedio. Quince agentes especializados, cada uno resolviendo un paso concreto con un input acotado y un output verificable, producen resultados predecibles.
Segundo: orquestar agentes especializados en lugar de usar un agente generalista. En la práctica, esto se traduce en un equipo virtual donde uno analiza la documentación, otro cruza normativa, otro redacta el borrador con citas trazables, y otro verifica que las citas corresponden a fuentes reales. Cada agente hace una cosa y la hace bien. Y esto se traduce en la práctica en contar con una herramienta que proporcione de manera automática la capacidad de orquestar agentes teniendo en cuenta todos los problemas anteriores y esto no es un problema trivial. Tan es así que llevamos un par de décadas investigando y trabajando para solucionar el problema.
Tercero: cada paso deja traza auditable. Qué hizo, en qué fuente se basó, qué decisión tomó, quién validó antes de que el proceso continuara. No narrativa del modelo. Registro verificable.
Cuarto: el humano está en el loop por diseño, no como argumento de marketing. En cada paso donde la decisión tiene consecuencias, el sistema se detiene y espera aprobación humana. No porque la IA sea mala. Porque hay decisiones que requieren juicio profesional, y la arquitectura debe respetar eso desde su diseño.
La IA propone. Tú decides. Siempre.
No es un modelo más grande. Es una arquitectura diferente.
5 · Implicaciones para tu empresa
Si diriges una empresa técnica y reconoces alguno de estos problemas, hay tres preguntas que merece la pena hacerse antes de seguir invirtiendo tiempo y dinero:
¿Tus agentes IA pueden producir resultados impredecibles en un proceso crítico? Si la respuesta es sí, o si no estás seguro, necesitas una capa de orquestación que divida el proceso en pasos verificables. Un prompt mejor no resuelve un problema de arquitectura.
¿Le pides a un solo modelo que resuelva un proceso de varios pasos con tu documentación propia? Si la respuesta es sí, estás trabajando en el límite de capacidad del modelo. No es cuestión de tiempo hasta que falle. Es cuestión de cuándo te darás cuenta de que ya ha fallado sin que lo detectaras.
¿Puedes auditar cada decisión que tomó el sistema? Si la respuesta es no, tienes un problema regulatorio hoy, no mañana. Y más allá de la regulación: si no puedes verificar las decisiones del sistema, no puedes confiar en él. Y si no confías en él, seguirás haciendo doble trabajo.
El primer paso no es automatizar todo. Es elegir un proceso concreto con resultado verificable, aplicar la arquitectura correcta, y medir. Cuando funcione en un proceso, replicar en el siguiente.
Las reglas del juego han cambiado.
6 · ¿Qué hacer para automatizar procesos entonces?
Hasta hace poco, la única respuesta era contratar un equipo de desarrolladores y arquitectos expertos en sistemas de agentes e invertir en una implementación de tu proceso. Esto supone un riesgo importante ya que existen muy pocos profesionales con esta experiencia. Si además buscamos que tengan conocimiento del negocio y que comprendan bien los procesos que van a automatizar, se explica con facilidad el motivo por el que hay un nivel tan bajo de automatización basada en IA.
Nosotros por nuestra parte no nos hemos quedado de brazos cruzados y hemos estado trabajando los últimos 2 años en crear una plataforma capaz de orquestar sistemas de agentes evitando comportamiento emergente, alucinaciones y que ayuda al usuario a hacer el divide y vencerás proponiendo los agentes y orquestaciones necesarias para resolver procesos reales de empresas. Además sin necesidad de conocimiento tecnológico o contratar un equipo de desarrolladores expertos, pues la plataforma sobre la que se ejecutan los agentes ya cuida los problemas anteriores.
Si diriges una empresa técnica y reconoces alguno de estos tres problemas, escríbeme. No para venderte nada. Para escuchar tu proceso concreto y decirte con honestidad si lo que hemos construido aplica o no.
La tecnología tiene que servir al profesional. No sustituirlo. No impresionarlo. Servirlo.
Construyamos un mundo más humanista en base a la tecnología.
Conversación con Joaquín
Cuéntanos un proceso de tu empresa. Te decimos si encaja con agentes.
30 minutos. Análisis técnico, no presentación de producto. Si no encaja, te lo decimos.