視覚言語モデルは否定語を理解できない

2025年5月22日

米マサチューセッツ工科大学、米OpenAI社、英オックスフォード大学の新しい共同研究によると、画像と言語を組み合わせた機械学習モデル（VLM：Vision-language models）は「ない」「～しない」といった否定表現をほとんど理解できず、実世界の応用で重大な誤診リスクがはらんでいる可能性があるという。たとえば、胸部X線画像に「組織の腫れはあるが心臓の拡大はない」と記載されている場合、本来は心臓疾患以外の鑑別が必要であるにも関わらず、VLMは「腫れ」「拡大」というキーワードだけを重視し、誤った類似症例を提示する可能性がある。

研究チームはまず、既存データセットの画像キャプションを大規模言語モデル（LLM）で再生成し、「～が写っていない」といった否定文を付加。その上で、VLMに対し「ある物体は写っているが別の物体は写っていない」画像を検索させるタスクや、選択肢のキャプションから正しい否定表現を選ばせる多肢選択問題を実施した。結果はいずれもランダム推測と同等かそれ以下で、画像検索精度は約25％低下、選択問題の精度は最高でも約39％に留まった。これは、モデルが否定語を無視し画像内の肯定的要素に偏る「肯定バイアス」を含むことが原因だという。そこで、10万件以上の否定キャプション付き画像データを用意しVLMをファインチューニングしたところ、画像検索精度が約10％、選択問題の精度が約30％向上した。

リード著者のKumail Alhamoud氏は「データ拡張で一歩前進したが、根本的な解決にはアーキテクチャの見直しが必要」と強調した。筆頭著者のMarzyeh Ghassemi准教授も「否定表現すら正しく扱えない状況では、VLMの医療現場展開は慎重でなければならない」と警鐘を鳴らした。今後は、テキストと画像を別々に処理する手法の導入や、医療向けなど応用領域に特化した否定キャプションデータセットの拡充を進め、実践的かつ安全なモデルを目指すとしている。

参照論文：

Vision-Language Models Do Not Understand Negation