neoAI-InstructBench: 実践的シナリオに基づく日本語複合指示追従ベンチマーク

川本, 稔己; 板井, 孝樹; 大槻, 真輝

neoAI-InstructBench: 実践的シナリオに基づく日本語複合指示追従ベンチマーク

Authors

川本稔己, 板井孝樹, 大槻真輝

Conference

言語処理学会第32回年次大会 (NLP2026), 2026/03

Abstract

実運用環境における大規模言語モデルには，形式，文体，内容など複数の制約を同時に満たす制御能力が求められる．しかし，既存のベンチマークは定型的な指示や，単一カテゴリー中心の設計であり，実世界の多様で複合的な指示を十分に反映していない．そこで本研究では，5つのカテゴリにまたがり，指示文が重複しない複合指示ベンチマーク neoAI-InstructBench を構築した．評価の結果，GPT-4oにおけるタスク完遂率は67%に留まり，その難易度が明らかとなった．さらに分析により，指示間干渉の傾向と，表記・形式制約がボトルネックとなり得ることを示した．本ベンチマークと評価用コードは公開する．

Paper

PDF