Claude 通过率不到4%,SaaS-Bench撕碎了Computer-Use的「全自动办公」幻想
来自 量子位
· 2026-05-25
精选
UniPat AI 发布 SaaS-Bench 评测,Claude 等主流大模型在真实办公任务中完全通过率最高仅 3.8%,AI 全自动办公远未落地。