neoAI-InstructBench: 実践的シナリオに基づく日本語複合指示追従ベンチマーク

Authors

川本 稔己, 板井 孝樹, 大槻 真輝

Conference

言語処理学会 第32回年次大会 (NLP2026), 2026/03

Abstract

実運用環境における大規模言語モデルには,形式,文体,内容など複数の制約を同時に満たす制御能力が求められる.しかし,既存のベンチマークは定型的な指示や,単一カテゴリー中心の設計であり,実世界の多様で複合的な指示を十分に反映していない.そこで本研究では,5つのカテゴリにまたがり,指示文が重複しない複合指示ベンチマーク neoAI-InstructBench を構築した.評価の結果,GPT-4oにおけるタスク完遂率は67%に留まり,その難易度が明らかとなった.さらに分析により,指示間干渉の傾向と,表記・形式制約がボトルネックとなり得ることを示した.本ベンチマークと評価用コードは公開する.

Paper

PDF