工作中,我接触过不少AI大模型对话工具,到底哪一款效果最好呢?同样一个问题,一般我会多个平台对比试试。刚好接到一个任务,是跟视频安防工程测算有关的,我就实际评测了10多款AI工具,包括国内国外目前主流的大模型,包括GPT-4o,Claude 3.5 sonnet,LLama 3.1,阿里通义千问、文心一言、讯飞星火、KimiChat、智谱等共计15款,17个版本。可以说是基本囊括了目前大部分主流大模型。

当然,这份评测目前只对我在工作中实际遇到的工程测算场景为例,并不代表他们在其他能力上面就不强,相反,各个模型在其他方面都各有专长,后面我也会逐个介绍下。如果你希望评测其他能力,可以留言提出你关心的问题,我再根据这个问题再问下它们,再出一篇文章。

对比后的一个主观打分如下(仅针对本次工程测算回答的评估):

序号
模型名称
得分
1
GPT-4o
95
2
GPT-4o mini
95
3
Claude 3.5 Sonnet  
95
4
Llama 3.1 405B
95
5
Llama 3.1 70B
93
6
Gemini 1.5 Pro
90
7
阿里通义千问
85
8
讯飞星火
80
9
百小应
80
10
智谱清言
80
11
KimiChat
75
12
万知
60
13
文心一言3.5
55
14
豆包
55
15
腾讯元宝
55
16
秘塔搜索
55
17
天工搜索
55

这个任务是我实际工作中遇到的,简单来说,就是根据摄像机的性能参数,来评估下识别出的物体目标的像素尺寸大小,以此来分析是否适合进行计算机视觉方式的算法识别。一般是要达到50像素X50像素以上才好去检测和识别的。

由于有一定的专业度和计算复杂度,一刚接到这个任务,我觉得计算起来也比较麻烦,干脆问问AI吧,顺便对比看看谁回答得对。以后工作中也更倾向于使用对应工具来处理工程计算方面的问题。

提示词都是一样的:你是优秀的安防摄像头研发专家,请问球机摄像头大概规格是:焦距大于1000mm,50倍变焦,使用1/1.8"传感器,分辨率为1920*1080;要求15公里外,可以看到大小7米*4米的飞机;6公里们可以看到1.6米*1.6米的起落架, 你看能不能帮忙计算一下,这个距离大概的目标大小是多少像素。请一步步思考,详细作答。

1、首先登场的是GPT-4o,回答步骤详细,帮我节省了不少计算步骤,答案也是正确的。主观打分:可以打95分。之所以不打满分是防止骄傲。

(上下滚动查看)

2、再试试国产的AI大模型,我这里先试了下腾讯元宝,答案有点……错得离谱。

(上下滚动查看)

首先1/1.8"传感器的尺寸大小搞错了。这个值我在CSDN上搜了搜,是7.18*5.32mm,GPT-4o是回答正确的:

其次它的计算公式有点让人摸不着头脑,而GPT-4o给出的先通过FOV视场角公式,再求出最终结果的方法是OK的。主观打分:只能打55分。

不是说腾讯元宝不好,而是在处理此类工程计算问题上,还得客观看待。不过,我平时喜欢用腾讯元宝进行搜索问题,它的深入研究模型会查很多资料后再回答,很详细,而且参考引用里面也包括很多微信公众号文章,本身公众号文章的质量一般都是比较优质的。

3、国产模型还有不少选择,这里我再试试阿里通义千问

(上下滚动查看)

第一步给出的传感器尺寸为8.8mm*6.6mm是错的,它旁边有个数字16的标号。说明是引用的一篇网文,我看了下,参考的是知乎的文章,但知乎这篇文章说的是对角线长度,通义居然理解错了。

好在后面的回答都是正确的,公式也对了,最后的结果仅仅是因为一开始传感器尺寸错误导致出现偏差,但整体的思路没问题。主观打分:能打85分。

4、再看下讯飞星火的回答,也是栽在了传感器尺寸上,后面的计算过程问题不大,不过计算飞机的像素大小的时候,换算成了小数点位数很多的角度,在此基础上再计算比例,我觉得这样不是特别好理解,不如GPT-4o换算成长度好些,不过好歹结果误差不算太大。主观打分:能打80分。

(上下滚动查看)

5、 再看一款,万知,这个我平时用得少,因为出得确实要晚些,不过它是李开复带队孵化的AI公司零一万物的作品,还是有口碑的。我现在来试试效果。还是跟通义、讯飞一样的问题,传感器尺寸搞错了,步骤2的视场角计算公式是给对了,但为啥没有算出结果来呢,而且到了第3步,居然又整出一个莫名奇妙的新公式,还把传感器尺寸传入,算出的结果让人摸不着头脑。明显太小了,看来,至少在工程测算上,万知还不太会。主观打分:能打60分。

6、下一个出场的选手,是字节的豆包,也是一个好手,用户体验做的也不错。但是这道题,我们细看答案,一开始传感器尺寸给对了不假,不过给的是对角线的尺寸,这不打紧,后面能换算成长和宽也行。视场角公式也给对了,我以为开始要按正确回答的方法走了,没想到水平视场角的计算用到了传感器对角线长度,垂直视场角也算错了。到了后面,算7米*4米飞机在15公里外所占的角度,居然带入错误的单位,7米变成了7公里,导致最后的结果大得离谱。看来,豆包的工程测算还得再好好练练了。主观打分:也只能打55分。

7、再来试试擅长AI搜索的天工搜索和秘塔搜索,天工搜索没有列对公式,然后也没有计算过程,只是说应该考虑这考虑那;秘塔搜索虽然计算了,但是公式也用得不对,最后算的答案也错得离谱。所以,针对AI搜索类应用,我还是更倾向于用他们去搜索资料,确实更在行,什么pdf文档、word文档都能找出来并引用好,但是对于工程测算,还是不要为难它们了。主观打分:都只能打55分。

(秘塔搜索)

(天工搜索)

8、 接下来继续对比4款国内大模型:

(1)文心一言我试了他们家的免费版3.5,看了下答案,虽然回答了很多,看似很认真,不过传感器尺寸给错,焦距居然还能根据1000mm和50倍变焦得出50000mm的结果,后面的公式也错了,导致最后结果也是不忍直视。当然,文心3.5免费,对文字处理类的问题回答得还行,还是不能以偏概全。主观打分:也只能打55分。

(2)而接下来出场的是百小应,也就是百川大模型,是搜狗前掌门王小川创业的作品,之前介绍过,最擅长的是作诗和医疗领域,这次试了下工程测算,发现它除了传感器尺寸给错,后面的公式和计算过程都没毛病,不过最后偷懒了下,只计算了长度,没有计算宽度,不过再追问下就可以算出来,百小应能够达到这个程序,已经超出我的预期了。主观打分:能打80分。

发现国内的大模型大部分都把传感器尺寸搞错了,不知道是不是因为1.8英寸是英制单位,国内的语料库普遍这方面比较少的原因。

(3)然后是智谱清言,它号称全面对标GPT-4o,最近还推出了GPT-4o语音版类似的语音对话模式,后面有时间我试试这个功能。今天重点还是看看它如何回答这个问题,传感器尺寸还是弄错了,HFOV虽然计算公式对了,但不知道为什么后面的步骤却没有用到,用另外一种相似三角形的公式也是可以的,算是另一种解题思路,但是因为前面传感器尺寸的偏差,造成最后结果不够令人信服。主观打分:能打80分。

(4)KimiChat,也是明星选手,之前火过一段,强在其长文本能力上,最近更新了新版本,选择“探索版”,即自带思维链功能,跟进的最新GPT-4 o1版本的能力。所以我一问他这个问题,确实不急着回答,先一阵子思考,查找资料,再来计算,我们看整个计算步骤,有条有理,传感器尺寸终于弄对,在国产大模型里面算是难能可贵了,后面的计算公式也是对的,只是到了最后第3步,明明公式、带入数值都是对的,可为啥最后的计算结果却功亏一篑了,两个答案都算错了。有点可惜。主观打分:能打75分。

9、 最后,我们再拿出4款国外大模型作为对比:

(1)首先是GPT-4o的劲敌Claude 3.5 sonnet,也是目前ChatGPT公认最强的对手。我们来看看回答,答题思路跟GPT-4o几乎一致,只是文字排版没那么漂亮,整体没毛病。主观打分:同样可以打95分。

(2)然后是谷歌推出的Gemini 1.5 Pro,前面计算步骤都没毛病,最后采用了跟智谱一样的相似三角形计算公式,因为传感器尺寸用对,所以最后结果是对的。不过,还是更倾向于用视场角公式来计算更具有说服力一些。主观打分:可以打90分。

(3)然后是Meta开源的Llama 3.1 405B,这是迄今为止,最强且参数最大的开源模型,我们来看看答案,回答得跟GPT-4o几乎一致,无懈可击。可以打95分。

其实这道题即使交给Llama 3.1 70B这个更小参数版本也是能够正确解答的,只是用词更加简洁一些。

(4)最后我拿出了GPT-4o的小版本mini,回答这个问题起来居然跟GPT-4o也难分伯仲。

最后,你也许会说,GPT-4o都这么强了,那他们最新的GPT o1不是要强得离谱?至少这道题,也未必,我试了下o1- mini,它的思考时间确实更长,而且回答更加详细,考虑因素更多,但是在关键的计算水平视场角的计算中,它居然算错了,我一开始还怀疑是不是其他大模型算错了,至少我自己求证并计算了下,确实是o1-mini失误了。所以,有时候想得太复杂未必是件好事,当然,最强的o1-preview我还没试,这话也许说早了。

总结来看,国内的大模型至少在工程测算这块,与国外优秀大模型还是有一些差距,但是有几个优秀的已经快追上来了,差距不大。在这里,希望国内大模型越做越好,早日一览众山小。

P.S. 上面对比评测的GPT-4o,Claude 3.5 sonnet,Gemini Pro,Llama 3.1等大模型,其实使用了Sider这款工具,它整合了GPT-4o,Claude 3.5,Gemini Pro等国外主流大模型,并可以在国内方便使用。

那么,如何系统的去学习大模型LLM?

我在一线互联网企业工作十余年里,指导过不少同行后辈。帮助很多人得到了学习和成长。

作为一名热心肠的互联网老兵,我意识到有很多经验和知识值得分享给大家,也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑,所以在工作繁忙的情况下还是坚持各种整理和分享。

但苦于知识传播途径有限,很多互联网行业朋友无法获得正确的资料得到学习提升,故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

所有资料 ⚡️ ,朋友们如果有需要全套 《LLM大模型入门+进阶学习资源包》,扫码获取~

篇幅有限,部分资料如下:

👉LLM大模型学习指南+路线汇总👈

💥大模型入门要点,扫盲必看!
在这里插入图片描述
💥既然要系统的学习大模型,那么学习路线是必不可少的,这份路线能帮助你快速梳理知识,形成自己的体系。

路线图很大就不一一展示了 (文末领取)
在这里插入图片描述

👉大模型入门实战训练👈

💥光学理论是没用的,要学会跟着一起做,要动手实操,才能将自己的所学运用到实际当中去,这时候可以搞点实战案例来学习。
在这里插入图片描述

👉国内企业大模型落地应用案例👈

💥两本《中国大模型落地应用案例集》 收录了近两年151个优秀的大模型落地应用案例,这些案例覆盖了金融、医疗、教育、交通、制造等众多领域,无论是对于大模型技术的研究者,还是对于希望了解大模型技术在实际业务中如何应用的业内人士,都具有很高的参考价值。 (文末领取)
在这里插入图片描述

👉GitHub海量高星开源项目👈

💥收集整理了海量的开源项目,地址、代码、文档等等全都下载共享给大家一起学习!
在这里插入图片描述

👉LLM大模型学习视频👈

💥观看零基础学习书籍和视频,看书籍和视频学习是最快捷也是最有效果的方式,跟着视频中老师的思路,从基础到深入,还是很容易入门的。 (文末领取)
在这里插入图片描述

👉640份大模型行业报告(持续更新)👈

💥包含640份报告的合集,涵盖了AI大模型的理论研究、技术实现、行业应用等多个方面。无论您是科研人员、工程师,还是对AI大模型感兴趣的爱好者,这套报告合集都将为您提供宝贵的信息和启示。
在这里插入图片描述

👉获取方式:

这份完整版的大模型 LLM 学习资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费

😝有需要的小伙伴,可以Vx扫描下方二维码免费领取🆓

Logo

欢迎加入 MCP 技术社区!与志同道合者携手前行,一同解锁 MCP 技术的无限可能!

更多推荐