部落格 - 誠山軟體

Galileo Labs最新發布的AI代理工具評估排行榜顯示，Google的Gemini-2.0-flash以0.938的優異成績領先群雄。這項評估涵蓋了17個主流大型語言模型，測試其在實際業務場景中的工具使用能力。

圖：2024年2月AI代理工具評估排行榜（來源：Galileo Labs）

排行榜前五名分別為Gemini-2.0-flash（0.938）、GPT-4o（0.900）、Gemini-1.5-flash（0.895）、Gemini-1.5-pro（0.885）和o1（0.876）。評估框架包含了單輪對話、工具選擇、並行執行、錯誤處理等多個維度，全面反映了各模型在實際應用場景中的表現。

這項研究對AI開發者具有重要參考價值，特別是在選擇適合特定業務場景的模型時。研究團隊也開源了評估數據集，讓開發者能夠進行自主評估。

Vectara最新發布的大型語言模型(LLM)幻覺測試排行榜顯示，Google的Gemini-2.0系列模型在防止產生幻覺方面表現優異。測試採用Hughes幻覺評估模型(HHEM-2.1)，對超過80個主流LLM進行評估，重點關注模型在摘要任務中產生幻覺的頻率。

排行榜前五名分別為：Google Gemini-2.0-Flash-001（幻覺率0.7%）、Google Gemini-2.0-Pro-Exp（0.8%）、OpenAI-o3-mini-high-reasoning（0.8%）、Google Gemini-2.0-Flash-Lite-Preview（1.2%）和Zhipu AI GLM-4-9B-Chat（1.3%）。這些結果顯示了大型科技公司在改善LLM可靠性方面的重大進展。

圖：2024年2月LLM幻覺測試排行榜（來源：Vectara）

這項研究對AI開發者具有重要意義，因為它提供了一個客觀的標準來評估LLM的可靠性。特別是在RAG（檢索增強生成）系統中，模型的幻覺率直接影響系統的可用性和可信度。研究團隊也開源了評估模型HHEM-2.1-Open，讓開發者能夠自行評估其模型的表現。

重要發現

Google Gemini-2.0系列模型展現最低幻覺率
大多數主流模型的幻覺率都在5%以下
模型大小與幻覺率並非直接相關
開源模型在這方面仍有改進空間

AI代理工具評估排行榜：Gemini-2.0-flash奪冠

最新LLM幻覺排行榜出爐！Google Gemini-2.0領先群雄

重要發現