让智能体画个小汽车这么难吗？我测了10款主流AI Agent，连OpenClaw都翻车了

菜鸟学Python

484人浏览 · 2026-04-01 09:07:02

菜鸟学Python · 2026-04-01 09:07:02 发布

大家好，我是菜哥！

最近这段时间，OpenClaw（俗称“龙虾”）是真的火。

会调工具、会写代码、会操作电脑、还能自己拆解任务。很多人第一次看到的时候，都会有种感觉：AI 这次终于不只是会聊天了，而是真的开始“会干活”了。也正因为这样，各家大厂这段时间也都在跟进，类似的 AI Agent 一下子多了起来。

于是问题也来了——

如果一个智能体真的已经具备了“操作电脑”的能力，那让它做一件基础、直观的任务，应该不难吧？

比如这道题：打开 Windows 画图工具，操作鼠标，帮我画一个小汽车。

但实测了几款主流的AI Agent后，我发现情况远没有想象得那么乐观。

这也让我想起前段时间那道把不少大模型难住的“洗车题”。当时这让很多人第一次直观意识到：一些大模型推理看起来很强，可一旦进入真实任务环境，很多产品的差距立马就体现出来了。这次，一个“画小车”的任务，就把不少智能体的真实执行能力测出来了。

话不多说，下面直接上实测。

先看结果：

1. Openclaw原版，失败，0分

打开了画图软件，编写了执行代码，但是执行遇到语法报错，后尝试多种方法均没成功让用户手动操作。

耗时：折腾2分钟。

2.知道创宇AiPy，成功，80分

打开 Windows 画图工具，识别画布，操作鼠标，并画出了一辆小汽车。

完美达标，离理想中的满分感觉美观度上还有差距，但任务链路是完整的：打开软件 → 定位界面 → 执行动作 → 交付结果。

耗时：1分钟

3.腾讯WorkBuddy，不及格，50分

打开了画图软件，画出了小汽车的模样，但是没有定位好画板位置，有部分画在了外面。

耗时：3分钟

4.腾讯Qclaw，失败，0分

默认配置下尝试了很多种方法都因权限问题失败，最后告诉我“抱歉，这个问题我暂时无法解答，让我们换个话题吧~”。

耗时：15分钟，花费了380万Token。

实在奇怪，手工修改配置，打开工具权限，这次花了10分钟，启动了画图软件，然而画的是这样。（这是特例，唯一一次修改默认配置，其他都全部保持默认设置）。

5.智谱AutoClaw，失败，0分

打开了画图软件，但执行失败。

6.元气AI，丑，但及格，60分

成功打开了画图软件，但是后期模型疑似陷入循环，一直参数解析失败，画的不好看

7.Minimax Agent，失败，0分

打开了画图软件，但是没有进行绘画

8.阶跃，失败，0分

打开了画图软件，然后说遇到限制，使用浏览器在线画板画图依然没成功，折腾了20分钟

9.天工sky，失败，0分

反馈无法打开本地软件，自己做了一个HTML模拟画了一辆汽车

软件界面

10.阿里CoPaw，丑，及格，50分

画的比较简单,有点不像,花了15分钟

11.最终结果

一览表：

Agent	得分	评价
知道创宇AiPy	80	1分钟，画得中规中矩，但已经没有最高分了
元气AI	60	画出了，但丑
腾讯WorkBuddy	50	画出来汽车，但部分超出画布
阿里CoPaw	50	画出了“汽车”，不像
原版OpenClaw	0	打开了画图软件，没有画出来
腾讯QCaw	0	花了15分钟，380万Token，失败
天工Sky	0	没打开画图软件，失败了，用HTML模拟画了一个
MiniMax Agent	0	打开了画图软件，没画
阶跃	0	折腾20分钟，没有打开画图软件，自己用HTML模拟也失败了
智谱AutoClaw	0	打开了画图软件，但画图失败了

总结

看到这里，很多人可能会觉得：不就是画个简笔画，至于翻车成这样吗？

至少从这轮测试来看，很多产品还停留在“看起来像能干活”的阶段。

相比之下，被不少用户称为“国产龙虾”的知道创宇 AiPy，这次虽然画出来的小汽车谈不上多精致，但至少把整件事完整跑下来了。

从打开软件，到定位界面，再到执行操作、交付结果，这条链路是通的。

放在这轮测试里，这一点已经很难得了。因为真正能打的 Agent，不一定体现在demo有多热闹，而是体现在：你给它一个明确任务，它到底能不能真的帮你做完。

如果你也想自己上手试试 AiPy，可以去官网（www.aipyaipy.com）下载安装体验。我也找官方要了一点福利，注册时，输入我的邀请码 jZsk，还能额外领取 200万 Tokens。

如果想交流使用体验，或者看看别人都是怎么用的，也可以进群，群里有 AiPy 的技术同学一起答疑。

MCP技术社区

欢迎加入 MCP 技术社区！与志同道合者携手前行，一同解锁 MCP 技术的无限可能！

更多推荐

第21篇 C语言内存函数

MCP技术社区

做完一个校园AI知识库项目后，我重新思考了大模型开发流程——也是我最终长期使用蓝耘 MaaS 的原因

MCP技术社区

A2A 协议落地 —— 从“前瞻设计“到“标准化接入“

本文讨论了 Agent 间协作的横向通信问题，提出了 A2A（Agent-to-Agent）协议作为解决方案。A2A 通过标准化接口实现 Agent 能力的自动发现和调用，包含异步任务、Webhook、对话共享和健康检查四层设计。关键设计包括：Agent Card 与 MCP 数据同源、异步任务薄壳模式、轮询与 Webhook 并存、对话共享公共存储和多级健康检查。A2A 与 MCP 分工明确，前