大家好,我是菜哥!

最近这段时间,OpenClaw(俗称“龙虾”)是真的火。

会调工具、会写代码、会操作电脑、还能自己拆解任务。很多人第一次看到的时候,都会有种感觉:AI 这次终于不只是会聊天了,而是真的开始“会干活”了。也正因为这样,各家大厂这段时间也都在跟进,类似的 AI Agent 一下子多了起来。

于是问题也来了——

如果一个智能体真的已经具备了“操作电脑”的能力,那让它做一件基础、直观的任务,应该不难吧?

比如这道题:打开 Windows 画图工具,操作鼠标,帮我画一个小汽车。

但实测了几款主流的AI Agent后,我发现情况远没有想象得那么乐观。

这也让我想起前段时间那道把不少大模型难住的“洗车题”。当时这让很多人第一次直观意识到:一些大模型推理看起来很强,可一旦进入真实任务环境,很多产品的差距立马就体现出来了。这次,一个“画小车”的任务,就把不少智能体的真实执行能力测出来了。

话不多说,下面直接上实测。

先看结果:

1. Openclaw原版,失败,0分

打开了画图软件,编写了执行代码,但是执行遇到语法报错,后尝试多种方法均没成功让用户手动操作。

耗时:折腾2分钟。

2.知道创宇AiPy,成功,80分

打开 Windows 画图工具,识别画布,操作鼠标,并画出了一辆小汽车。

完美达标,离理想中的满分感觉美观度上还有差距,但任务链路是完整的:打开软件 → 定位界面 → 执行动作 → 交付结果。

耗时:1分钟

3.腾讯WorkBuddy,不及格,50分

打开了画图软件,画出了小汽车的模样,但是没有定位好画板位置,有部分画在了外面。

耗时:3分钟

4.腾讯Qclaw,失败,0分

默认配置下尝试了很多种方法都因权限问题失败,最后告诉我“抱歉,这个问题我暂时无法解答,让我们换个话题吧~”。

耗时:15分钟,花费了380万Token。

实在奇怪,手工修改配置,打开工具权限,这次花了10分钟,启动了画图软件,然而画的是这样。(这是特例,唯一一次修改默认配置,其他都全部保持默认设置)。

5.智谱AutoClaw,失败,0分

打开了画图软件,但执行失败。

6.元气AI,丑,但及格,60分

成功打开了画图软件,但是后期模型疑似陷入循环,一直参数解析失败,画的不好看

7.Minimax Agent,失败,0分

打开了画图软件,但是没有进行绘画

8.阶跃,失败,0分

打开了画图软件,然后说遇到限制,使用浏览器在线画板画图依然没成功,折腾了20分钟

9.天工sky,失败,0分

反馈无法打开本地软件,自己做了一个HTML模拟画了一辆汽车

软件界面

10.阿里CoPaw,丑,及格,50分

画的比较简单,有点不像,花了15分钟

11.最终结果

一览表:

Agent

得分

评价

知道创宇AiPy

80

1分钟,画得中规中矩,但已经没有最高分了

元气AI

60

画出了,但丑

腾讯WorkBuddy

50

画出来汽车,但部分超出画布

阿里CoPaw

50

画出了“汽车”,不像

原版OpenClaw

0

打开了画图软件,没有画出来

腾讯QCaw

0

花了15分钟,380万Token,失败

天工Sky

0

没打开画图软件,失败了,用HTML模拟画了一个

MiniMax Agent

0

打开了画图软件,没画

阶跃

0

折腾20分钟,没有打开画图软件,自己用HTML模拟也失败了

智谱AutoClaw

0

打开了画图软件,但画图失败了

总结

看到这里,很多人可能会觉得:不就是画个简笔画,至于翻车成这样吗?

至少从这轮测试来看,很多产品还停留在“看起来像能干活”的阶段。

相比之下,被不少用户称为“国产龙虾”的知道创宇 AiPy,这次虽然画出来的小汽车谈不上多精致,但至少把整件事完整跑下来了。

从打开软件,到定位界面,再到执行操作、交付结果,这条链路是通的。

放在这轮测试里,这一点已经很难得了。因为真正能打的 Agent,不一定体现在demo有多热闹,而是体现在:你给它一个明确任务,它到底能不能真的帮你做完。

如果你也想自己上手试试 AiPy,可以去官网(www.aipyaipy.com)下载安装体验。我也找官方要了一点福利,注册时,输入我的邀请码 jZsk,还能额外领取 200万 Tokens。

如果想交流使用体验,或者看看别人都是怎么用的,也可以进群,群里有 AiPy 的技术同学一起答疑。

Logo

欢迎加入 MCP 技术社区!与志同道合者携手前行,一同解锁 MCP 技术的无限可能!

更多推荐