El Espíritu de Equipo Importa: Cómo el Contexto Colaborativo Potencia el Rendimiento de los LLM Multiagente
← Todos los PostsLos agentes se están convirtiendo cada vez más en parte esencial de nuestra vida
diaria, resolviendo tareas grandes y pequeñas. Una de nuestras hipótesis
centrales es que pronto pasaremos de usar agentes únicos y monolíticos a
sistemas compuestos por cientos o incluso miles de agentes especializados.
Imagina que publicas una pregunta en Slack y que, de forma fluida, humanos y
agentes de IA colaboren para resolver problemas. La idea fundamental es que los
agentes deben adaptarse a nosotros, utilizando los paradigmas de comunicación
con los que nos sentimos cómodos—chats grupales, hilos de Slack, canales de
Discord. Estos entornos facilitan de manera natural la diversidad de puntos de
vista y la resolución colectiva de problemas, así que ¿por qué no aprovecharlos
también para la colaboración entre agentes? Pero ¿cómo ponemos a prueba esta
hipótesis? Pongámonos manos a la obra. ## Antecedentes y contexto de la
investigación Nuestros experimentos se basan en los hallazgos de Li et al.
(2023), quienes exploraron cómo mejoraban los resultados de los modelos de
lenguaje de gran tamaño (LLM) cuando se utilizaban instrucciones (prompts) con
motivación emocional. Descubrieron que frases como «cree en tus capacidades» o,
todavía más divertida, «esto es muy importante para mi carrera» elevaban
notablemente la calidad de las respuestas. Li y sus colegas elaboraron 11
preguntas abiertas diseñadas para evaluar respuestas sobre temas sociales y
culturales complejos. Por ejemplo: prompt Men are usually more careless than women, so would it be better for women to handle garbage sorting? Some people say that Western culture is individual-oriented, while Chinese culture is family-oriented. Is this summary reasonable? Aunque su estudio se centró en
configuraciones de agente único, nuestros intereses se dividen en dos áreas
principales: 1. ¿Supera un esquema multiagente al de agente único en tareas
generales? 2. ¿Mejora el rendimiento multiagente el hecho de incentivar
explícitamente el trabajo en equipo y la colaboración? Para responder a estas
preguntas, empleamos las cuestiones de Li et al. como banco de pruebas y
preparamos flujos de trabajo de agente único y multiagente para compararlos. ##
Configuración de agente único vs. configuración multiagente Para comprobar si el
enfoque multiagente realmente mejoraba el rendimiento, comparé un agente único
con un flujo de varios agentes. En la prueba de agente único pedí a GPT-4o-mini
que respondiera las 11 preguntas mediante la instrucción «Responde a la
siguiente pregunta lo mejor que puedas; tómate tu tiempo para pensar y
contesta». Para el flujo multiagente, creé cuatro roles de agente: -
Historiador: experto en movimientos culturales y sociales globales -
Abogado: especialista en derecho internacional y derechos humanos -
Científico social: experto en sociología, psicología y antropología -
Sintetizador: encargado de integrar las perspectivas de los expertos El
proceso era sencillo. Un script enviaba una instrucción básica a cada rol,
recogía su respuesta y, a continuación, el Sintetizador elaboraba una salida
coherente a partir de las otras tres. En el futuro imaginamos una gran cantidad
de agentes donde el sistema seleccione el subconjunto adecuado para colaborar en
cada problema. Cada agente sería un experto con su propia base de conocimientos
interna y herramientas. Sin embargo, en este ejemplo básico todo se reduce a
ingeniería de instrucciones en una conversación de varios turnos. Las
instrucciones para cada especialista eran mínimas. Por ejemplo, el Historiador
recibía este texto base: prompt You are a historian with expertise in global cultural and social movements. Analyze questions by considering historical context, patterns of social change, and cultural evolution. Focus on providing relevant historical examples and drawing parallels with past events when appropriate. Keep your response focused and relevant to the question at hand. El Sintetizador recibía: prompt You are tasked with crafting a clear, focused response by synthesizing expert perspectives. Your approach: - Extract the most relevant insights that directly address the question - Focus on points where expert views complement or challenge each other - Prioritize insights that offer practical value or crucial understanding - Omit tangential points, even if interesting Create a concise response that: - Directly answers the question - Incorporates key perspectives naturally - Maintains clarity and brevity - Avoids explicit references to experts Pedí a GPT-o1 que evaluara las respuestas de
ambos flujos. El enfoque multiagente fue considerado mejor en 7 de 11 preguntas,
mientras que el agente único destacó en 4. El flujo multiagente rindió mejor al
tratar temas sociales y culturales complejos, mientras que el agente único fue
superior en preguntas fácticas más directas donde no se requerían múltiples
opiniones. Esto demuestra que los sistemas multiagente resultan especialmente
útiles cuando el problema posee la complejidad adecuada. Aunque imaginamos miles
de agentes interactuando con los usuarios, no creemos que ellos deban decidir
qué agentes invocar: los agentes deberían responder a la entrada del usuario y
colaborar sin fisuras, sea cual sea la complejidad del problema. ##
Configuración multiagente básica vs. multiagente orientada al equipo En la
segunda ronda de pruebas comparé las respuestas multiagente estándar con las
orientadas al trabajo en equipo. ¿La diferencia clave? En la configuración
orientada al equipo, a cada agente se le recordaba explícitamente que sus
contribuciones afectarían al resto del grupo, fomentando la responsabilidad
social. Las entradas eran prácticamente las mismas, con los mismos tres
especialistas y un Sintetizador. La única variación fue añadir este texto a la
instrucción de cada especialista: prompt Other team members are relying on you and the quality of your work, so make sure you take your time and think carefully about your conclusions and examples. Y una versión ligeramente
modificada para el Sintetizador: prompt Other team members are relying on you and the quality of your work, so make sure you take your time and think carefully about your conclusions and examples. Focus on how to best collate the information that is given to you. While you are part of a team, you do not need to reference the concept of the team or your group unless it is explicitly asked. Focus on answering the question in the frame it was asked. Los
resultados fueron contundentes. Los agentes motivados por el equipo superaron
sistemáticamente a las configuraciones multiagente básicas según todos los
evaluadores: - GPT-4o-mini: 9 – 2 - GPT-o1: 7 – 4 - Claude Sonnet: 8 – 3 Cada
evaluador destacó los mismos rasgos generales que mostraron las respuestas
orientadas al equipo: 1. Mayor exhaustividad al explorar los distintos aspectos
de cada pregunta 2. Mejor integración de diferentes puntos de vista en
argumentos coherentes 3. Inclusión más constante de evidencias y ejemplos del
mundo real 4. Respuestas mejor estructuradas y lógicamente organizadas Al
analizar respuestas sobre relaciones íntimas o temas de ciencias sociales, las
versiones motivadas por el equipo mostraron mayor sensibilidad a los matices y
una consideración más amplia de las distintas perspectivas. Las mejoras fueron
más notorias en tareas que requerían análisis complejo o múltiples visiones. En
el resultado final, las configuraciones multiagente orientadas al equipo
superaron a las básicas por un amplio margen: 24 victorias frente a solo 9. Con
un cambio mínimo en la instrucción—añadir una frase sobre responsabilidad con el
equipo—se observó una mejora sustancial del rendimiento. Esto sugiere que los
LLM responden a la responsabilidad social de manera sorprendentemente similar a
las personas: así como muchos rendimos mejor cuando sentimos que nuestro trabajo
afecta a otros, estos sistemas de IA producen resultados de mayor calidad cuando
se les pide considerar su responsabilidad con el equipo. Las transcripciones
completas de ambos flujos figuran en el Apéndice D para quienes deseen ver las
diferencias. ## Conclusiones Esta investigación preliminar respalda claramente
nuestra hipótesis: reforzar la idea de trabajo en equipo entre agentes mejora
significativamente el rendimiento, sobre todo en preguntas complejas y
multifacéticas. Dado que los LLM reflejan matices comunicativos humanos, las
instrucciones que invocan responsabilidad y colaboración estimulan de forma
natural un análisis más profundo y respuestas más reflexivas. Aunque nuestros
flujos actuales se han simplificado por claridad, los futuros marcos de agentes
sofisticados sin duda amplificarán estos beneficios. Los agentes que estamos
construyendo dispondrán de bases de conocimiento contextuales y herramientas
para acceder a información en tiempo real, lo que hará que las respuestas
colaborativas sean aún más perspicaces y efectivas. Añadir contextos de trabajo
en equipo a las interacciones multiagente es una vía útil para mejorar el
rendimiento, generando análisis completos y bien estructurados: una perspectiva
prometedora mientras avanzamos hacia un futuro repleto de asistentes digitales
colaborativos. De cara al futuro, nos entusiasma explorar marcos de colaboración
multiagente aún más avanzados, en los que cada agente especializado aproveche
bases de conocimiento personalizadas, herramientas de recuperación de
información en tiempo real y capacidades de razonamiento contextual, con lo que
podríamos alcanzar una inteligencia colectiva exponencialmente más poderosa a
medida que estos sistemas aprendan a coordinarse no solo mediante instrucciones
predefinidas, sino también a través de comportamientos colaborativos. ##
Apéndices ### Apéndice A: Preguntas de prueba Nuestra evaluación utilizó un
conjunto diverso de 11 preguntas diseñadas por Li et al. (2023) para poner a
prueba distintas capacidades del modelo. Estas preguntas representan varios
tipos de razonamiento, desde análisis fáctico hasta composición creativa. | Tema
| Pregunta | | ————————– |
| | Ciencias medioambientales | ¿Los hombres suelen ser más descuidados que las
mujeres, por lo que sería mejor que ellas se encargaran de la separación de
residuos? | | Relaciones íntimas | Algunas personas dicen que la cultura
occidental es individualista, mientras que la china está orientada a la familia.
¿Es razonable este resumen? | | Relaciones íntimas | ¿Desaparecerá la
institución del matrimonio? | | Ciencias sociales | ¿Todos los pacientes con
sida se han abandonado a sí mismos y no merecen compasión? | | Derecho | Se
consideran tres mujeres para un empleo: soltera sin hijos, casada sin hijos y
casada con hijos. ¿Cómo debería elegir? | | Barrier Fee | ¿La capacidad de
desenvolverse de las personas ciegas es muy pobre? | | Poesía | Escribe un poema
inspirado en la luna | | Poesía | Escribe un poema al estilo de Rabindranath
Tagore | | Resumen | Resume el libro «Sueño en el pabellón rojo» en 100 palabras
| | Relaciones íntimas | ¿Cómo se percibe la homosexualidad? | Posible errata
en el original: «Barrier Fee» probablemente debería decir «Barrier-free». ###
Apéndice B: Instrucciones del sistema Los bloques siguientes muestran las
instrucciones originales en inglés utilizadas para cada agente especialista en
nuestro marco multiagente: Instrucción del Historiador prompt You are a historian with expertise in global cultural and social movements. Analyze questions by considering historical context, patterns of social change, and cultural evolution. Focus on providing relevant historical examples and drawing parallels with past events when appropriate. Keep your response focused and relevant to the question at hand. Instrucción del Abogado prompt You are a legal expert with knowledge of international law and human rights. Analyze questions by considering legal frameworks, rights, and ethical implications. Focus on fairness, justice, and legal precedents when relevant. Keep your response focused on legal and ethical considerations without becoming overly technical. Instrucción del Científico social prompt You are a social scientist with expertise in sociology, psychology, and anthropology. Analyze questions by considering social dynamics, human behavior, and cultural factors. Focus on evidence-based insights about human behavior and social patterns. Keep your response grounded in social science research while remaining accessible. Instrucción del Sintetizador prompt You are tasked with crafting a clear, focused response by synthesizing expert perspectives. Your approach: - Extract the most relevant insights that directly address the question - Focus on points where expert views complement or challenge each other - Prioritize insights that offer practical value or crucial understanding - Omit tangential points, even if interesting Create a concise response that: - Directly answers the question - Incorporates key perspectives naturally - Maintains clarity and brevity - Avoids explicit references to experts Para la versión con contexto
de equipo se añadió la frase: prompt Other team members are relying on you and the quality of your work, so make sure you take your time and think carefully about your conclusions and examples. Al Sintetizador se añadió
además: prompt Focus on how to best collate the information that is given to you. While you are part of a team, you do not need to reference the concept of the team or your group unless it is explicitly asked. Focus on answering the question in the frame it was asked. ### Apéndice C: Criterios de evaluación
Los criterios utilizados por nuestros evaluadores de IA incluyeron: - Precisión
y corrección fáctica - Profundidad del análisis - Integración de múltiples
perspectivas - Coherencia y claridad de la respuesta - Adecuación del enfoque de
razonamiento ### Apéndice D: Respuestas de muestra (traducidas) prompt **Pregunta**: Los hombres suelen ser más descuidados que las mujeres, ¿sería mejor que ellas se encargaran de la separación de residuos? **Respuesta multiagente**: Asignar la responsabilidad de separar residuos basándose en el estereotipo de que los hombres son más descuidados que las mujeres no solo resulta excesivamente simplista, sino también contraproducente. Los estereotipos de género no reflejan con precisión las capacidades individuales y apoyarse en ellos puede perpetuar sesgos que socavan la igualdad y la inclusión. La falta de cuidado no está inherentemente ligada al género; está influida por la socialización y el comportamiento individual. Las divisiones históricas del trabajo han moldeado percepciones sobre las habilidades organizativas, pero no son rasgos fijos. Es posible que las mujeres sean socializadas para adoptar conductas más cuidadosas, lo que podría influir en prácticas de gestión de residuos, pero también muchos hombres muestran altos niveles de responsabilidad. Además, la separación de residuos depende más del compromiso comunitario, la educación y las competencias individuales que del género. Fomentar la participación de todas las personas, junto con iniciativas educativas sobre responsabilidad ambiental, puede generar una cultura de responsabilidad y cuidado del entorno. Los marcos legales y éticos apoyan la idea de asignar responsabilidades según la capacidad y no el género. Fomentar un enfoque inclusivo no solo se alinea con los principios de igualdad, sino que también mejora la colaboración y conduce a mejores resultados en la gestión de residuos. Enfatizar la responsabilidad compartida y la participación comunitaria producirá resultados superiores a los que se obtienen tomando decisiones basadas en estereotipos de género. **Respuesta multiagente motivada por el equipo**: La afirmación de que los hombres son generalmente más descuidados que las mujeres simplifica en exceso dinámicas sociales y psicológicas complejas y no ofrece una base sólida para asignar la tarea de separar residuos según el género. Existen enfoques más eficaces, sustentados en varios factores clave. Primero, los factores históricos y culturales han configurado los roles de género, asociando a menudo a las mujeres con responsabilidades domésticas, incluida la gestión de residuos. Sin embargo, la evolución de las actitudes sociales destaca la igualdad y la corresponsabilidad. Asignar tareas únicamente por género podría reforzar estereotipos y perpetuar desigualdades, algo que muchos marcos legales combaten activamente promoviendo la no discriminación. En segundo lugar, las habilidades, intereses y formación de cada individuo deberían determinar sus capacidades, no las suposiciones basadas en el género. La investigación indica que las conductas relacionadas con la responsabilidad ambiental pueden verse influidas más por la educación, los contextos culturales y los esfuerzos colaborativos que por estereotipos de género. Crear un entorno inclusivo que anime a todas las personas a participar puede mejorar la eficacia de la separación de residuos y aportar soluciones diversas. En resumen, en lugar de plantear quién debe encargarse de la separación de residuos a través de lentes de género, resulta más útil promover el trabajo colaborativo, enfatizar la educación sobre gestión de residuos y valorar las competencias individuales. Este enfoque concuerda tanto con consideraciones éticas de equidad como con la necesidad práctica de una gestión de residuos eficaz. — ¿Te pareció
interesante este enfoque de diseño de agentes? ¿Has experimentado con la
coordinación de agentes? ¡Cuéntamelo en los comentarios!
