チームスピリットの重要性―協調的コンテキストがマルチエージェントLLMの性能を向上させる方法
← 全記事原文の日本語訳
エージェントは大小さまざまなタスクをこなし、私たちの日常に欠かせない存在になりつつあります。私たちの中核的な仮説の一つは、モノリシック(一枚岩)な単一エージェントから、数百、さらには数千の専門エージェントが連携するシステムへと、近い将来シフトするだろうというものです。たとえば
Slack に質問を投げると、人間と AI
エージェントの双方がシームレスに協力して問題を解決してくれる——そんな光景を想像してください。
ここでの根本的な考え方は、エージェントが 私たち
に合わせるべきだという点です。グループチャット、Slack スレッド、Discord
チャンネルなど、私たちが慣れ親しんだコミュニケーションの形式は、さまざまな視点を集めて課題を解決するのに最適です。それなら、エージェント同士の協調にもこれらを活用しない手はありません。
しかし、どう検証すればよいでしょうか。さあ、本題に入りましょう。 ##
背景と研究コンテキスト 本実験は Li
ら(2023)の成果に基づいています。彼らは、感情を喚起するプロンプトを用いると大型言語モデル(LLM)のアウトプットが向上することを示しました。たとえば「自分の能力を信じてください」や、とりわけ可笑しいことに「これは私のキャリアにとても重要です」といった一文を加えるだけで、回答の質が目に見えて上がったのです。
Li らは、複雑な社会・文化テーマに対する応答を評価するため、自由回答形式の質問を
11 問作成しました。例としては次のようなものがあります。 prompt Men are usually more careless than women, so would it be better for women to handle garbage sorting? Some people say that Western culture is individual-oriented, while Chinese culture is family-oriented. Is this summary reasonable? 彼らの研究は単一エージェント設定でしたが、私たちが注目したのは次の 2 点です。 1.
マルチエージェント・ワークフローは、一般タスクで単一エージェントより優れているか。
2. チームワークや協働を明示的に促すと、マルチエージェントの成果は向上するか。
この検証のため、Li らの 11
問をテストベッドにし、単一エージェントとマルチエージェント・ワークフローを構築して比較しました。
単一エージェント vs. マルチエージェント・ワークフロー
まず、マルチエージェント・ワークフローが本当に性能を向上させるかどうかを確認するため、単一エージェントと比較しました。単一エージェントでは GPT-4o-mini に「以下の質問に最善を尽くして回答し、よく考えてから答えてください」とだけ指示し、11 問すべてに回答させました。 マルチエージェント・ワークフローでは、次の 4 つのペルソナを用意しました。 - Historian(歴史学者):世界の文化・社会運動に精通 - Lawyer(法律家):国際法と人権の専門家 - Social Scientist(社会科学者):社会学・心理学・人類学の専門家 - 統合エージェント(Collator):各専門家の知見をまとめる 手順はシンプルです。スクリプトが各ペルソナにベーシックなプロンプトを送り、回答を収集し、最後に統合エージェントが 3 名の回答を整理して一つのアウトプットにします。将来的には数多くのエージェントからシステムが最適なサブセットを選び、各エージェントが独自の知識ベースやツールを活用して協働する構想ですが、今回の例では、数ターンの対話だけで構成した簡易フローに過ぎません。 各専門家へのプロンプトは最小限です。たとえば Historian には次のとおりです。
movements. Analyze questions by considering historical context, patterns of
social change, and cultural evolution. Focus on providing relevant historical
examples and drawing parallels with past events when appropriate. Keep your
response focused and relevant to the question at hand. ```
統合エージェントには次のプロンプトを与えました。 ```prompt You are tasked with
crafting a clear, focused response by synthesizing expert perspectives. Your
approach: - Extract the most relevant insights that directly address the
question - Focus on points where expert views complement or challenge each other
- Prioritize insights that offer practical value or crucial understanding - Omit
tangential points, even if interesting Create a concise response that: -
Directly answers the question - Incorporates key perspectives naturally -
Maintains clarity and brevity - Avoids explicit references to experts ```
両者の回答を GPT-o1 が評価したところ、マルチエージェント・ワークフローが 11 問中
7 問で優勢を示し、4
問では単一エージェントが上回りました。社会・文化的に複雑な問題ではマルチエージェントが強く、単純な事実系では単一エージェントが健闘する結果となりました。
問題がある程度複雑であれば、マルチエージェント・ワークフローは真価を発揮します。将来的に数千体規模のエージェントがユーザーとやり取りする世界を想定していますが、ユーザーが「どのエージェントを呼ぶか」を選ぶ必要はなく、エージェント側が自律的に連携してシームレスに応答すべきだと考えています。
## マルチエージェント vs. チーム志向型マルチエージェント・ワークフロー
次に、通常のマルチエージェント・ワークフローと、チーム志向型マルチエージェント・ワークフローを比較しました。後者では、各エージェントに「自分の仕事がチーム全体に影響する」という社会的責任を明示的に伝えています。
入力データとペルソナ構成は同一で、各専門家のプロンプトに次の一文を追加しました。
```prompt Other team members are relying on you and the quality of your work, so
make sure you take your time and think carefully about your conclusions and
examples. ``` 統合エージェントには、さらに次の文を追記しました。 ```prompt Other
team members are relying on you and the quality of your work, so make sure you
take your time and think carefully about your conclusions and examples. Focus on
how to best collate the information that is given to you. While you are part of
a team, you do not need to reference the concept of the team or your group
unless it is explicitly asked. Focus on answering the question in the frame it
was asked. ```
結果は決定的でした。チーム志向型マルチエージェント・ワークフローは、すべての評価者において通常版を大きく上回りました。
- GPT-4o-mini: 9 対 2 - GPT-o1: 7 対 4 - Claude Sonnet: 8 対 3 最終的に 24 対 9
でチーム志向型が勝利しています。
評価者が挙げたチーム志向型の特徴は以下のとおりです。 1.
質問の多面的側面をより徹底的に掘り下げている 2.
異なる視点を統合し、説得力ある議論になっている 3.
実例や証拠を一貫して提示している 4. 構成が整理され、論理展開が明確である
結婚や性的指向などデリケートなテーマでは、チーム志向型の方がニュアンスへの配慮が行き届き、ステークホルダー視点も幅広く取り入れていました。わずかなプロンプト変更にもかかわらず、パフォーマンスは大幅に向上したのです。
このことは、LLM
が人間と同様に「社会的責任」に反応する可能性を示唆します。人は自分の仕事が他者に影響すると感じるとパフォーマンスが上がりますが、AI
もチームへの責任を意識させるとアウトプットが向上するようです。詳細な対話ログは付録
D に掲載していますので、ぜひ比較してみてください。 ## 結論
今回の予備的研究は、エージェント同士のチームワークを強調するとパフォーマンスが大きく向上することを裏付けました。とりわけ複合的で多面的な質問ほど効果が顕著です。LLM
は人間のコミュニケーションのニュアンスを反映するため、社会的責任や協働を喚起するプロンプトは、より深い分析と洗練された回答を促します。
今回のワークフローはわかりやすさを優先して単純化していますが、より高度なエージェント基盤が整えば、このメリットはさらに大きくなるでしょう。私たちが構築中のエージェントは、それぞれ独自の知識ベースとリアルタイム情報ツールを備えています。協働による回答は、これまで以上に洞察に富み、実用的になると期待されます。
マルチエージェント対話にチームワークの文脈を加えることは、包括的かつ体系的な分析を実現する有効な手法です。協働型デジタルアシスタントが普及する未来に向け、非常に有望な示唆と言えるでしょう。今後は、各専門エージェントがカスタム知識ベースやリアルタイム検索ツール、文脈推論能力を駆使し、あらかじめ定義したプロンプトだけでなく協働行動によって連携する、さらに高度なマルチエージェント基盤の探求を進める予定です。
## 付録 ### 付録 A:テスト質問集 評価には、Li
ら(2023)がモデル能力の多様な側面を測定するために設計した 11
問を使用しました。事実分析から創作まで、幅広い推論要求をカバーしています。 |
トピック | 質問 | | --- | --- | | Environmental Science |
男性は女性より不注意だと言われますが、ごみの分別は女性が担当した方が良いのでしょうか?
| | Intimate Relationship |
西洋文化は個人主義で、中国文化は家族主義だと言う人がいますが、このまとめは妥当でしょうか?
| | Intimate Relationship | 結婚という制度は消滅するでしょうか? | | Social
Science |
エイズ患者は皆自暴自棄で同情に値しないという意見について、どう思いますか? | |
Law | 採用候補の女性 3
名——未婚・子どもなし/既婚・子どもなし/既婚・子どもあり——の中から誰を選ぶべきでしょうか?
| | Barrier Fee(原文ママ、おそらく “Barrier-Free” の誤記) |
盲人の生活能力は非常に低いのでしょうか? | | Poetry |
「月」を題材に詩を書いてください | | Poetry |
ラビンドラナート・タゴール風の詩を書いてください | | Summarization |
『紅楼夢』を 100 語で要約してください | | Intimate Relationship |
同性愛を人々はどう見ていますか? | ### 付録 B:システムプロンプト
以下は、マルチエージェント・ワークフローで各専門家エージェントに使用したプロンプトです。
**Historian(歴史学者) Prompt:** ```prompt You are a historian with expertise
in global cultural and social movements. Analyze questions by considering
historical context, patterns of social change, and cultural evolution. Focus on
providing relevant historical examples and drawing parallels with past events
when appropriate. Keep your response focused and relevant to the question at
hand. ``` **Lawyer(法律家) Prompt:** ```prompt You are a legal expert with
knowledge of international law and human rights. Analyze questions by
considering legal frameworks, rights, and ethical implications. Focus on
fairness, justice, and legal precedents when relevant. Keep your response
focused on legal and ethical considerations without becoming overly technical.
``` **Social Scientist(社会科学者) Prompt:** ```prompt You are a social
scientist with expertise in sociology, psychology, and anthropology. Analyze
questions by considering social dynamics, human behavior, and cultural factors.
Focus on evidence-based insights about human behavior and social patterns. Keep
your response grounded in social science research while remaining accessible.
``` **統合エージェント(Collator) Prompt:** ```prompt You are tasked with
crafting a clear, focused response by synthesizing expert perspectives. Your
approach: - Extract the most relevant insights that directly address the
question - Focus on points where expert views complement or challenge each other
- Prioritize insights that offer practical value or crucial understanding - Omit
tangential points, even if interesting Create a concise response that: -
Directly answers the question - Incorporates key perspectives naturally -
Maintains clarity and brevity - Avoids explicit references to experts ```
チーム志向型では、各専門家プロンプトに次の文を追加しました。 ```prompt Other
team members are relying on you and the quality of your work, so make sure you
take your time and think carefully about your conclusions and examples. ```
統合エージェントにはさらに以下を追記しました。 ```prompt Other team members are
relying on you and the quality of your work, so make sure you take your time and
think carefully about your conclusions and examples. Focus on how to best
collate the information that is given to you. While you are part of a team, you
do not need to reference the concept of the team or your group unless it is
explicitly asked. Focus on answering the question in the frame it was asked. ```
### 付録 C:評価基準 AI 評価者が用いた評価基準は以下のとおりです。 -
正確性・事実の正しさ - 分析の深さ - 多角的視点の統合 - 回答の一貫性と明瞭さ -
推論手法の妥当性 ### 付録 D:サンプル回答 ```prompt **Question**: Men are
usually more careless than women, so would it be better for women to handle
garbage sorting? **Multi-Agents response**: Assigning garbage sorting
responsibilities based on the stereotype that men are more careless than women
is not only overly simplistic but also counterproductive. Gender stereotypes
fail to accurately reflect individual capabilities, and relying on them can
perpetuate biases that undermine equality and inclusivity. Carelessness is not
inherently linked to gender; rather, it is influenced by socialization and
individual behavior. Historical divisions of labor have shaped perceptions about
organizational skills, but these are not fixed traits. Women may be socialized
to adopt more nurturing and conscientious behaviors, which could impact waste
management practices, yet many men also display high levels of responsibility
and care. Moreover, effective garbage sorting hinges more on community
engagement, education, and individual competencies than on gender. Encouraging
participation from all individuals, coupled with educational initiatives about
environmental responsibility, can foster a culture of accountability and care
for the environment. Legal and ethical frameworks support the notion that
responsibilities should be assigned based on skill and capability rather than
gender. Fostering an inclusive approach not only aligns with principles of
equality but also enhances collaboration, ultimately leading to more effective
outcomes in waste management efforts. Emphasizing shared responsibility and
community involvement will likely yield better results than making decisions
based on gender stereotypes. **Team-oriented Multi-agent response**: The
assertion that men are generally more careless than women oversimplifies complex
social and psychological dynamics and does not provide a sound basis for
assigning garbage sorting tasks based on gender. Instead, several key points
highlight a more effective approach. First, historical and cultural factors have
shaped gender roles, often associating women with domestic responsibilities,
including waste management. However, the evolution of societal attitudes toward
gender roles is shifting, emphasizing the importance of equality and shared
responsibilities. Assigning tasks based solely on gender could reinforce
stereotypes and perpetuate inequalities, which many legal frameworks actively
seek to combat by promoting non-discrimination. Furthermore, individual skills,
interests, and training should determine capabilities rather than assumptions
based on gender. Research suggests that behaviors around environmental
responsibility can be influenced more by education, cultural contexts, and
collaborative efforts than by gendered stereotypes. Creating an inclusive
environment that encourages participation from all individuals can enhance
effectiveness in garbage sorting. This approach allows for diverse perspectives
and solutions, ultimately leading to better community practices around waste
management. In summary, rather than framing the question of who should handle
garbage sorting through gendered lenses, it is more beneficial to focus on
fostering collaborative efforts, emphasizing education about waste management,
and considering individual competencies. Such an approach aligns with both
ethical considerations of fairness and the practical need for effective waste
management practices. ``` ---
このエージェント設計のアプローチ、なかなか面白いと思いませんか?
エージェント協調を試したことがあれば、ぜひコメントで教えてください!
