我們知道 Agentic AI 很厲害,但他們找答案的方法真的有效率嗎 - MADQA benchmark

HuggingFace Papers
Author

Tai-Ning Liao

Published

March 16, 2026

這篇 paper 給了一套 2250 題題庫,定義了衡量多模態 AI agent 「搜尋效率」的方法,並給出了有趣的觀察。

先講結論,Agent在搜尋上很擅長,但效率不如人類,可能是因為推理能力不足,agent甚至用暴力搜尋的方法 彌補了他推理能力不強的短版。

一般來說,代理人 (AI agent) 在訓練時,有個 Reward Function,我們用人為定義獎勵機制,讓 agent 往我們想要的方向發展。 但我們今天不是要講這個,我們是要比較 agent 訓練出來的成果,跟人類專家比起來,是贏是輸? 而比較標準是什麼? 比速度的話 agent 當然會贏,所以說要定義出類似「精準度」的東西。

這個東西叫做 Multimodal Agentic document QA benchmark。顧名思義,他要測試多模態(文字+圖片)的代理人,讀取多份文件後,問答表現的能力。

如何衡量,agent的表現? 除了答對問題?

本文引用了 Kuiper Statistic (庫柏統計量), K value。

〔先講一個錯誤版本〕 假設題目的難度標記從 1 分到 100分,那我們花的時間,預計也要跟它呈正比。例如在難度1分的題目上若花 1分鐘,在難度100分的題目就是花 100分鐘。(假設這個難度量表有設計好)。那Kuiper Statistic其實很好理解,就是「多花的最長時間」加上「少花的最長時間」。比方說 agent 表現最差(最浪費時間) 是在難度3分的題目上花了10分鐘(超出預期7分鐘),然後太快放棄的是在難度70分的問題只花了 55分鐘(少花了15分鐘),那這個agent 的K value就是 7 + 15 = 22。

直觀上我們想這樣定義,但是,量表怎麼設計? 誰設計的準? 沒有辦法。而且,客觀上我們只知道 agent 答對與否(0分或1分)。沒有對於答案品質的量化指標。

所以我們改一種方式。因為我們題目很多,所以可以用機率模型來思考,也就是研究「答對率」與「花費時間」的關係。我們期望他是一個常數。

假設有2000道題,我們把所有題目根據「agent花費的時間」(或者說,搜尋使用的step數,總之就是一個正實數),由小排到大。 在這個排序下,我們希望,不管花多少時間,agent的答對率是「均勻的」。直覺來說,如果花比較少時間的題目 答對率較高,花較多時間的題目,答對率較低,那不就代表,其實那些花較多時間的題目是多餘的,應該要降低才對。那才是均勻分配時間的方法。

但具體來說,可能花費時間 = 20 的只有一個取樣點,這要怎麼算答對率? 這時就是利用 paper 中的計算 cumulative 的方法來解決。在這邊就先不仔細展開。

研究結果: 有趣的發現是,


結語

學者們設計了一套 open book 題庫,目的不是在難倒AI,最強模型答對率已經有七成,但重點是,這些agent到底怎麼找出答案的,我們在剖析他們的搜尋方法 (不能說解剖思考過程,那是另一回事了)。

實驗結果展示