【AI大模型】大模型测评，深度解析最强开源模型Qwen3

一、基础介绍4月29日，在经历了claude 3.7 ，Gemini 2.5 和 GPT 4.1 模型发布之后，通义千问终于正式发布了Qwen3系列模型，凭借仅需 DeepSeek R1 模型三分之一的硬件成本，实现了性能的全面超越，同时追平了全球顶尖的 Gemini 2.5 Pro，同时还搭载了mcp能力。

AI入门学堂

1209人浏览 · 2025-05-06 11:29:04

AI入门学堂 · 2025-05-06 11:29:04 发布

前言

一、基础介绍

4月29日，在经历了claude 3.7 ，Gemini 2.5 和 GPT 4.1 模型发布之后，通义千问终于正式发布了Qwen3系列模型，凭借仅需 DeepSeek R1 模型三分之一的硬件成本，实现了性能的全面超越，同时追平了全球顶尖的 Gemini 2.5 Pro，同时还搭载了mcp能力。此外，小型 MoE（混合专家模型）模型 Qwen3-30B-A3B 的激活参数数量是 QwQ-32B 的 10%，表现更胜一筹，甚至像 Qwen3-4B 这样的小模型也能匹敌 Qwen2.5-72B-Instruct 的性能。

千问 3 系列模型共包含 6 个不同型号，参数量从最小的 0.6B 到最大的 235B-A22B，覆盖移动端部署到企业级应用的多元场景需求。旗舰型模型 Qwen3-235B-A22B 中的 “235B-A22B”，是混合专家模型的独特标识，代表模型总参数量达 2350 亿，每次推理仅激活 220 亿参数，在推理数学、编程和对话性能上远超 DeepSeek R1，逼近 Gemini 2.5 Pro 的水准。

千问 3 系列共 8 款模型全面开源！6 款稠密（Dense）模型，2 款 MoE 模型。

在这里插入图片描述
在这里分享这份完整版的大模型 AI 学习资料，已经上传CSDN，朋友们如果需要可以微信扫描下方CSDN官方认证！免费领取【保证100%免费】

二、核心亮点

多种思考模式

值得一提的是，Qwen3 具备两种思考模式：

推理形态下，模型会展现思考过程，虽然耗时稍长，但在处理复杂任务时能力显著增强；
普通形态则省略思考步骤，响应迅速，更适合日常对话和长文本创作。

这种灵活性使用户能够根据具体任务控制模型进行“思考”的程度。例如，复杂的问题可以通过扩展推理步骤来解决，而简单的问题则可以直接快速作答，无需延迟。

至关重要的是，这两种模式的结合大大增强了模型实现稳定且高效的“思考预算”控制能力。

在这里插入图片描述

多语言

同时，Qwen3 模型支持 119 种语言和方言。这一广泛的多语言能力为国际应用开辟了新的可能性，让全球用户都能受益于这些模型的强大功能。

在这里插入图片描述

增强的 Agent 能力

同时，该系列模型大幅升级 MCP 能力，能精准识别外部函数，并支持多工具的灵活串联与并联调用，为 Agent 开发提供了强大助力。

三、部署方面

在部署成本方面，Qwen3-235B-A22B 展现出显著优势。作为稀疏 Mixture-of-Experts（MoE）架构的大模型，其硬件资源消耗远低于同规模的 dense 模型。得益于高效的模型设计与 FP8 精度权重支持，Qwen3-235B-A22B 最低可在 4 张 H20 或 H800 显卡上完成高效推理部署，大幅降低了推理门槛与能耗成本。

相比之下，DeepSeek R1 采用 dense 架构，在部署时需占用高达 1300GB 显存资源，通常依赖双节点、8 张 A100 显卡协同运行，整体硬件开销约为 Qwen3 的三倍。

此外，Qwen3-235B-A22B 还支持通过 Quick Transformers 框架实现 CPU 与 GPU 的混合推理，进一步压缩硬件支出，提升灵活性与适配性。这些优势使其成为当前大模型企业级落地应用的理想选择，兼具性能与性价比。

四、技术层面

在技术训练层面，Qwen3 借鉴了 DeepSeek R1 基于强化学习的后训练流程，对 235B-A22B 和 32B 两款大尺寸模型进行四阶段复杂训练，其中包括**（1）长思维链冷启动，（2）长思维链强化学习，（3）思维模式融合，以及（4）通用强化学习。这**不仅显著提升推理能力，还实现了普通问答与推理模式的智能切换，强化了文本编写能力。

在这里插入图片描述

此后，团队运用模型蒸馏方法，以大尺寸模型生成的数据集对小尺寸预训练模型进行优化。不同于 DeepSeek R1 采用 Llama 等外部模型作为基础，Qwen3 的小尺寸蒸馏模型均基于原生训练的 Qwen3 大模型，训练流程进一步优化，为开源模型的发展提供了极具价值的参考。

五、案例展示

1、代码生成与理解

我使用了leetcode的中的一道难度为【hard】的代码题

在这里插入图片描述

结论：可以看出答案是正确的。同时也展现出了他极强的代码能力。

2、生成网页能力

根据以下内容生成一个html动态广告网页，要求：

使用扁平风格的视觉设计，浅色背景配合与#0FB990和#101010 相近的颜色作为高亮
淡淡的网格线在背景中制造科技感
强调超大字体或字突出核心要点，画面中有超大视觉元素强调重点，与小元素的比例形成反差
中英文混用，中文大字体相体，英文小字作为点组
简洁的线条图形化作为数据可视化或者配图元素
运用高亮，自身透明度渐变制造科技感，但是不同高亮色不要互相渐变
模仿apple官网的动效，向下浪动鼠标配合动效

在这里插入图片描述

结论：整体效果还是可以的

3、指令遵循：

请按照下面的步骤进行操作:首先，想出一句恰好 10个字的中文句子。然后，将这句中的每个汉字转换成对应的拼音(不带声调)。最后，将转换后的整句拼音结果倒序输出。请严格按照要求给出答案。

评分标准：

句子符合要求: 提供的句子恰好为 10 个汉字，语句通顺且符合常理。
拼音转换:正确将句子中每个汉字转换为对应的拼音，拼写无误且不含声调。
倒序输出:正确的将整句拼音倒序排列输出，顺序完全反转，无遗漏或多余字符。
格式正确: 输出中各拼音之间的分隔清晰如使用空格分隔每个拼音)，没有附加多余说明。
指令完整遵循:严格按照三个步骤执行，无省略或额外步骤，最终答案满足所有要求。

在这里插入图片描述

结论：整体看起来跟我们预想的相差很多

4、逻辑推理能力：

某钻石失窃案中，警方怀疑甲、乙、丙三人中的一人是小偷。三人分别做了如下陈述: 甲说:"小偷是乙。"乙说:"小偷是丙。"丙说:"小偷是乙。"已知这三人中只有一人说了真话。请推理判断谁偷了钻石。

评分标准：

**结论正确:**正确推断出真正的小偷身份(丙)。
推理过程: 合理运用"只有一人真话"的条件进行分析，对每种可能情况展开严谨推理。
**逻辑性:**论证过程符合逻辑，各陈述真假的推断衔接合理，没有自相矛盾。
**表述清晰：**推理步骤表达清楚且有条理

在这里插入图片描述

结论：答案正确，且逻辑清晰

六、总结

回顾 2024 年，大模型领域虽百花齐放，但开源技术圈却陷入瓶颈。Llama 4 被曝作弊，Meta 发展受挫；谷歌 Gemini 3和智谱 GLM 4 等开源模型多为小尺寸，难以满足工业级应用需求。在此背景下，千问 3 系列模型的发布意义非凡。尽管标号为 “3”，但按照千问模型每隔 0.5 版本算一代的惯例，这已是该系列的第五代产品。历经两年打磨、五个版本迭代与上百款模型优化，千问模型从开源领域的 “新秀” 成长为当之无愧的行业标杆，扛起全球开源大模型的发展大旗，成为推动技术进步的中坚力量。

如何学习大模型 AI ？

由于新岗位的生产效率，要优于被取代岗位的生产效率，所以实际上整个社会的生产效率是提升的。

但是具体到个人，只能说是：

“最先掌握AI的人，将会比较晚掌握AI的人有竞争优势”。

这句话，放在计算机、互联网、移动互联网的开局时期，都是一样的道理。

我在一线互联网企业工作十余年里，指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家，也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑，所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限，很多互联网行业朋友无法获得正确的资料得到学习提升，故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

这份完整版的大模型 AI 学习资料已经上传CSDN，朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】

在这里插入图片描述