今日凌晨 2 点 OpenAI 开源了用于智能体浏览器功能测试的基准 BrowseComp,该测试基准难度很大,OpenAI 自家的 GPT-4o、GPT-4.5 准确率仅 0.6%和 0.9%近乎为 0,即便是带浏览器...
今日凌晨 2 点 OpenAI 开源了用于智能体浏览器功能测试的基准 BrowseComp,该测试基准难度很大,OpenAI 自家的 GPT-4o、GPT-4.5 准确率仅 0.6%和 0.9%近乎为 0,即便是带浏览器功能的 GPT-4o 也仅 1.9%,但 OpenAI 最新发布的 Agent 模型 Deep Research 准确率达 51.5%,在自主搜索、信息整合、准确性校准方面表现非常优秀(AIGC 开放社区)。
编辑回复