今日凌晨 2 点 OpenAI 开源了用于智能体浏览器功能测试的基准 BrowseComp,该测试基准难度很大,OpenAI 自家的 GPT-4o、GPT-4.5 准确率仅 0.6%和 0.9%近乎为 0,即便是带浏览器...

编辑回复