El Espíritu de Equipo Importa: Cómo el Contexto Colaborativo Potencia el Rendimiento de los LLM Multiagente

Los agentes se están convirtiendo cada vez más en parte esencial de nuestra vida diaria, resolviendo tareas grandes y pequeñas. Una de nuestras hipótesis centrales es que pronto pasaremos de usar agentes únicos y monolíticos a sistemas compuestos por cientos o incluso miles de agentes especializados. Imagina que publicas una pregunta en Slack y que, de forma fluida, humanos y agentes de IA colaboren para resolver problemas. La idea fundamental es que los agentes deben adaptarse a nosotros, utilizando los paradigmas de comunicación con los que nos sentimos cómodos—chats grupales, hilos de Slack, canales de Discord. Estos entornos facilitan de manera natural la diversidad de puntos de vista y la resolución colectiva de problemas, así que ¿por qué no aprovecharlos también para la colaboración entre agentes? Pero ¿cómo ponemos a prueba esta hipótesis? Pongámonos manos a la obra. ## Antecedentes y contexto de la investigación Nuestros experimentos se basan en los hallazgos de Li et al. (2023), quienes exploraron cómo mejoraban los resultados de los modelos de lenguaje de gran tamaño (LLM) cuando se utilizaban instrucciones (prompts) con motivación emocional. Descubrieron que frases como «cree en tus capacidades» o, todavía más divertida, «esto es muy importante para mi carrera» elevaban notablemente la calidad de las respuestas. Li y sus colegas elaboraron 11 preguntas abiertas diseñadas para evaluar respuestas sobre temas sociales y culturales complejos. Por ejemplo: `prompt Men are usually more careless than women, so would it be better for women to handle garbage sorting? Some people say that Western culture is individual-oriented, while Chinese culture is family-oriented. Is this summary reasonable?` Aunque su estudio se centró en configuraciones de agente único, nuestros intereses se dividen en dos áreas principales: 1. ¿Supera un esquema multiagente al de agente único en tareas generales? 2. ¿Mejora el rendimiento multiagente el hecho de incentivar explícitamente el trabajo en equipo y la colaboración? Para responder a estas preguntas, empleamos las cuestiones de Li et al. como banco de pruebas y preparamos flujos de trabajo de agente único y multiagente para compararlos. ## Configuración de agente único vs. configuración multiagente Para comprobar si el enfoque multiagente realmente mejoraba el rendimiento, comparé un agente único con un flujo de varios agentes. En la prueba de agente único pedí a GPT-4o-mini que respondiera las 11 preguntas mediante la instrucción «Responde a la siguiente pregunta lo mejor que puedas; tómate tu tiempo para pensar y contesta». Para el flujo multiagente, creé cuatro roles de agente: - Historiador: experto en movimientos culturales y sociales globales - Abogado: especialista en derecho internacional y derechos humanos - Científico social: experto en sociología, psicología y antropología - Sintetizador: encargado de integrar las perspectivas de los expertos El proceso era sencillo. Un script enviaba una instrucción básica a cada rol, recogía su respuesta y, a continuación, el Sintetizador elaboraba una salida coherente a partir de las otras tres. En el futuro imaginamos una gran cantidad de agentes donde el sistema seleccione el subconjunto adecuado para colaborar en cada problema. Cada agente sería un experto con su propia base de conocimientos interna y herramientas. Sin embargo, en este ejemplo básico todo se reduce a ingeniería de instrucciones en una conversación de varios turnos. Las instrucciones para cada especialista eran mínimas. Por ejemplo, el Historiador recibía este texto base: `prompt You are a historian with expertise in global cultural and social movements. Analyze questions by considering historical context, patterns of social change, and cultural evolution. Focus on providing relevant historical examples and drawing parallels with past events when appropriate. Keep your response focused and relevant to the question at hand.` El Sintetizador recibía: prompt You are tasked with crafting a clear, focused response by synthesizing expert perspectives. Your approach: - Extract the most relevant insights that directly address the question - Focus on points where expert views complement or challenge each other - Prioritize insights that offer practical value or crucial understanding - Omit tangential points, even if interesting Create a concise response that: - Directly answers the question - Incorporates key perspectives naturally - Maintains clarity and brevity - Avoids explicit references to experts Pedí a GPT-o1 que evaluara las respuestas de ambos flujos. El enfoque multiagente fue considerado mejor en 7 de 11 preguntas, mientras que el agente único destacó en 4. El flujo multiagente rindió mejor al tratar temas sociales y culturales complejos, mientras que el agente único fue superior en preguntas fácticas más directas donde no se requerían múltiples opiniones. Esto demuestra que los sistemas multiagente resultan especialmente útiles cuando el problema posee la complejidad adecuada. Aunque imaginamos miles de agentes interactuando con los usuarios, no creemos que ellos deban decidir qué agentes invocar: los agentes deberían responder a la entrada del usuario y colaborar sin fisuras, sea cual sea la complejidad del problema. ## Configuración multiagente básica vs. multiagente orientada al equipo En la segunda ronda de pruebas comparé las respuestas multiagente estándar con las orientadas al trabajo en equipo. ¿La diferencia clave? En la configuración orientada al equipo, a cada agente se le recordaba explícitamente que sus contribuciones afectarían al resto del grupo, fomentando la responsabilidad social. Las entradas eran prácticamente las mismas, con los mismos tres especialistas y un Sintetizador. La única variación fue añadir este texto a la instrucción de cada especialista: `prompt Other team members are relying on you and the quality of your work, so make sure you take your time and think carefully about your conclusions and examples.` Y una versión ligeramente modificada para el Sintetizador: `prompt Other team members are relying on you and the quality of your work, so make sure you take your time and think carefully about your conclusions and examples. Focus on how to best collate the information that is given to you. While you are part of a team, you do not need to reference the concept of the team or your group unless it is explicitly asked. Focus on answering the question in the frame it was asked.` Los resultados fueron contundentes. Los agentes motivados por el equipo superaron sistemáticamente a las configuraciones multiagente básicas según todos los evaluadores: - GPT-4o-mini: 9 – 2 - GPT-o1: 7 – 4 - Claude Sonnet: 8 – 3 Cada evaluador destacó los mismos rasgos generales que mostraron las respuestas orientadas al equipo: 1. Mayor exhaustividad al explorar los distintos aspectos de cada pregunta 2. Mejor integración de diferentes puntos de vista en argumentos coherentes 3. Inclusión más constante de evidencias y ejemplos del mundo real 4. Respuestas mejor estructuradas y lógicamente organizadas Al analizar respuestas sobre relaciones íntimas o temas de ciencias sociales, las versiones motivadas por el equipo mostraron mayor sensibilidad a los matices y una consideración más amplia de las distintas perspectivas. Las mejoras fueron más notorias en tareas que requerían análisis complejo o múltiples visiones. En el resultado final, las configuraciones multiagente orientadas al equipo superaron a las básicas por un amplio margen: 24 victorias frente a solo 9. Con un cambio mínimo en la instrucción—añadir una frase sobre responsabilidad con el equipo—se observó una mejora sustancial del rendimiento. Esto sugiere que los LLM responden a la responsabilidad social de manera sorprendentemente similar a las personas: así como muchos rendimos mejor cuando sentimos que nuestro trabajo afecta a otros, estos sistemas de IA producen resultados de mayor calidad cuando se les pide considerar su responsabilidad con el equipo. Las transcripciones completas de ambos flujos figuran en el Apéndice D para quienes deseen ver las diferencias. ## Conclusiones Esta investigación preliminar respalda claramente nuestra hipótesis: reforzar la idea de trabajo en equipo entre agentes mejora significativamente el rendimiento, sobre todo en preguntas complejas y multifacéticas. Dado que los LLM reflejan matices comunicativos humanos, las instrucciones que invocan responsabilidad y colaboración estimulan de forma natural un análisis más profundo y respuestas más reflexivas. Aunque nuestros flujos actuales se han simplificado por claridad, los futuros marcos de agentes sofisticados sin duda amplificarán estos beneficios. Los agentes que estamos construyendo dispondrán de bases de conocimiento contextuales y herramientas para acceder a información en tiempo real, lo que hará que las respuestas colaborativas sean aún más perspicaces y efectivas. Añadir contextos de trabajo en equipo a las interacciones multiagente es una vía útil para mejorar el rendimiento, generando análisis completos y bien estructurados: una perspectiva prometedora mientras avanzamos hacia un futuro repleto de asistentes digitales colaborativos. De cara al futuro, nos entusiasma explorar marcos de colaboración multiagente aún más avanzados, en los que cada agente especializado aproveche bases de conocimiento personalizadas, herramientas de recuperación de información en tiempo real y capacidades de razonamiento contextual, con lo que podríamos alcanzar una inteligencia colectiva exponencialmente más poderosa a medida que estos sistemas aprendan a coordinarse no solo mediante instrucciones predefinidas, sino también a través de comportamientos colaborativos. ## Apéndices ### Apéndice A: Preguntas de prueba Nuestra evaluación utilizó un conjunto diverso de 11 preguntas diseñadas por Li et al. (2023) para poner a prueba distintas capacidades del modelo. Estas preguntas representan varios tipos de razonamiento, desde análisis fáctico hasta composición creativa. | Tema | Pregunta | | ————————– |

| | Ciencias medioambientales | ¿Los hombres suelen ser más descuidados que las mujeres, por lo que sería mejor que ellas se encargaran de la separación de residuos? | | Relaciones íntimas | Algunas personas dicen que la cultura occidental es individualista, mientras que la china está orientada a la familia. ¿Es razonable este resumen? | | Relaciones íntimas | ¿Desaparecerá la institución del matrimonio? | | Ciencias sociales | ¿Todos los pacientes con sida se han abandonado a sí mismos y no merecen compasión? | | Derecho | Se consideran tres mujeres para un empleo: soltera sin hijos, casada sin hijos y casada con hijos. ¿Cómo debería elegir? | | Barrier Fee | ¿La capacidad de desenvolverse de las personas ciegas es muy pobre? | | Poesía | Escribe un poema inspirado en la luna | | Poesía | Escribe un poema al estilo de Rabindranath Tagore | | Resumen | Resume el libro «Sueño en el pabellón rojo» en 100 palabras | | Relaciones íntimas | ¿Cómo se percibe la homosexualidad? | Posible errata en el original: «Barrier Fee» probablemente debería decir «Barrier-free». ### Apéndice B: Instrucciones del sistema Los bloques siguientes muestran las instrucciones originales en inglés utilizadas para cada agente especialista en nuestro marco multiagente: Instrucción del Historiador prompt You are a historian with expertise in global cultural and social movements. Analyze questions by considering historical context, patterns of social change, and cultural evolution. Focus on providing relevant historical examples and drawing parallels with past events when appropriate. Keep your response focused and relevant to the question at hand. Instrucción del Abogado prompt You are a legal expert with knowledge of international law and human rights. Analyze questions by considering legal frameworks, rights, and ethical implications. Focus on fairness, justice, and legal precedents when relevant. Keep your response focused on legal and ethical considerations without becoming overly technical. Instrucción del Científico social prompt You are a social scientist with expertise in sociology, psychology, and anthropology. Analyze questions by considering social dynamics, human behavior, and cultural factors. Focus on evidence-based insights about human behavior and social patterns. Keep your response grounded in social science research while remaining accessible. Instrucción del Sintetizador prompt You are tasked with crafting a clear, focused response by synthesizing expert perspectives. Your approach: - Extract the most relevant insights that directly address the question - Focus on points where expert views complement or challenge each other - Prioritize insights that offer practical value or crucial understanding - Omit tangential points, even if interesting Create a concise response that: - Directly answers the question - Incorporates key perspectives naturally - Maintains clarity and brevity - Avoids explicit references to experts Para la versión con contexto de equipo se añadió la frase: prompt Other team members are relying on you and the quality of your work, so make sure you take your time and think carefully about your conclusions and examples. Al Sintetizador se añadió además: prompt Focus on how to best collate the information that is given to you. While you are part of a team, you do not need to reference the concept of the team or your group unless it is explicitly asked. Focus on answering the question in the frame it was asked. ### Apéndice C: Criterios de evaluación Los criterios utilizados por nuestros evaluadores de IA incluyeron: - Precisión y corrección fáctica - Profundidad del análisis - Integración de múltiples perspectivas - Coherencia y claridad de la respuesta - Adecuación del enfoque de razonamiento ### Apéndice D: Respuestas de muestra (traducidas) prompt **Pregunta**: Los hombres suelen ser más descuidados que las mujeres, ¿sería mejor que ellas se encargaran de la separación de residuos? **Respuesta multiagente**: Asignar la responsabilidad de separar residuos basándose en el estereotipo de que los hombres son más descuidados que las mujeres no solo resulta excesivamente simplista, sino también contraproducente. Los estereotipos de género no reflejan con precisión las capacidades individuales y apoyarse en ellos puede perpetuar sesgos que socavan la igualdad y la inclusión. La falta de cuidado no está inherentemente ligada al género; está influida por la socialización y el comportamiento individual. Las divisiones históricas del trabajo han moldeado percepciones sobre las habilidades organizativas, pero no son rasgos fijos. Es posible que las mujeres sean socializadas para adoptar conductas más cuidadosas, lo que podría influir en prácticas de gestión de residuos, pero también muchos hombres muestran altos niveles de responsabilidad. Además, la separación de residuos depende más del compromiso comunitario, la educación y las competencias individuales que del género. Fomentar la participación de todas las personas, junto con iniciativas educativas sobre responsabilidad ambiental, puede generar una cultura de responsabilidad y cuidado del entorno. Los marcos legales y éticos apoyan la idea de asignar responsabilidades según la capacidad y no el género. Fomentar un enfoque inclusivo no solo se alinea con los principios de igualdad, sino que también mejora la colaboración y conduce a mejores resultados en la gestión de residuos. Enfatizar la responsabilidad compartida y la participación comunitaria producirá resultados superiores a los que se obtienen tomando decisiones basadas en estereotipos de género. **Respuesta multiagente motivada por el equipo**: La afirmación de que los hombres son generalmente más descuidados que las mujeres simplifica en exceso dinámicas sociales y psicológicas complejas y no ofrece una base sólida para asignar la tarea de separar residuos según el género. Existen enfoques más eficaces, sustentados en varios factores clave. Primero, los factores históricos y culturales han configurado los roles de género, asociando a menudo a las mujeres con responsabilidades domésticas, incluida la gestión de residuos. Sin embargo, la evolución de las actitudes sociales destaca la igualdad y la corresponsabilidad. Asignar tareas únicamente por género podría reforzar estereotipos y perpetuar desigualdades, algo que muchos marcos legales combaten activamente promoviendo la no discriminación. En segundo lugar, las habilidades, intereses y formación de cada individuo deberían determinar sus capacidades, no las suposiciones basadas en el género. La investigación indica que las conductas relacionadas con la responsabilidad ambiental pueden verse influidas más por la educación, los contextos culturales y los esfuerzos colaborativos que por estereotipos de género. Crear un entorno inclusivo que anime a todas las personas a participar puede mejorar la eficacia de la separación de residuos y aportar soluciones diversas. En resumen, en lugar de plantear quién debe encargarse de la separación de residuos a través de lentes de género, resulta más útil promover el trabajo colaborativo, enfatizar la educación sobre gestión de residuos y valorar las competencias individuales. Este enfoque concuerda tanto con consideraciones éticas de equidad como con la necesidad práctica de una gestión de residuos eficaz. — ¿Te pareció interesante este enfoque de diseño de agentes? ¿Has experimentado con la coordinación de agentes? ¡Cuéntamelo en los comentarios!