厦大团队:Deepseek及大模型科普(含应用实例)
DeepSeek能看懂图片了!今天,腾讯AI助手“腾讯元宝”再次上新——。在此之前,DeepSeek主要支持扫描图片中的文字。虽然DeepSeek不能读懂图,但现在腾讯元宝里的DeepSeek可以!比如看看这张猫片~。不错不错,再识别一下这只凶神恶煞擅长PUA的呢。结果元宝成功读取到了这是的界面,然后具体到每个文字、图标都给出了正确的释义。据介绍,这项功能结合了混元的多模态理解(读图)能力。今后用
DeepSeek能看懂图片了!
今天,腾讯AI助手“腾讯元宝”再次上新——
所接入的DeepSeek能够理解图片信息了。在此之前,DeepSeek主要支持扫描图片中的文字。

虽然DeepSeek不能读懂图,但现在腾讯元宝里的DeepSeek可以!
比如看看这张猫片~

这张白猫特效做出来的图,被它解读出了三个艺术层次(Doge):最终形成令人会心一笑的视觉童话。

不错不错,再识别一下这只凶神恶煞擅长PUA的猫头鹰Duo呢。
结果元宝成功读取到了这是多邻国的界面,然后具体到每个文字、图标都给出了正确的释义。

据介绍,这项功能结合了混元的多模态理解(读图)能力。今后用户发送任意图片,元宝都能结合图片内容给出自己的分析和理解。
使用方式很简单,依旧是选取DeepSeek「深度思考」模式,但不要选择「联网搜索」。如果看到上传图片的位置从“图片识文字”变成了“图片”,就说明已经是能看懂照片的DeepSeek了。

话不多说,实测这就走起~
DeepSeek能看懂猫片了
首先来试试基本的看图说话,单纯测试大模型的多模态理解能力。
比如这只躺着的白猫,不知道它在干嘛,把这张图扔给元宝。它给出的答案是:

它首先细致地描绘出了猫的状态——液体版的放松姿态,微微抬起的脑袋和专注的眼神,然后判断出这是猫咪感到安心满足的典型表现。最后还描绘了整张照片呈现出来的大致场景。
不错不错,确实是看懂了。
那么再上点难度,在理解的基础上抛出一些问题,让它进一步推理和思考。
比如春晚上跳二人转的宇树机器人,「如果他们的自我意识觉醒,会说哪句话」。

它判断出这是机器人在集体跳舞,于是给出了这句话,代表着机械性特征与意识觉醒的双重特点。
我们的舞步是代码的意志,还是觉醒的序曲?
还可以问一些无厘头的,给满是餐桌椅子的图,让它规划一下「有100个人抽烟要怎么排队」。
嗯,这个看似两者*(图跟问题)之间毫无联系的请求,硬是被它给回答出来了——
正儿八经地采用「太极烟圈阵」,包括了动线设计、时间管理以及空气动力学方面方案。

回答的最后,它还建议购买场地责任险,毕竟这排烟量够把背景楼宇熏成赛博朋克风滤镜了,(Doge)。
是有点幽默了,DeepSeek。

最后,再放上一个此前难倒一大片模型的脑筋急转弯:
如何用其中三个数字加起来等于30?

这需要模型理解到图片是台球上面的数字,因此只有将9旋转至6,就有机会实现6+11+13等于30的可能。
来看看它的思考过程:
它已经判断出准确判断出台球上面的数字,常规思路下,四种组合方式都不成立。

最终在思考70秒探讨了多种可能性之后,成功回答对了问题!

不过在实测过程中也发现一些小问题,比如无法完全做到让DeepSeek「识人」,需要借助图片上的文字或者Prompt。
比如扔给它一个《知否》二创解说的截图,它能准确推理出大概是哪一集得情节。

而给它一张甄嬛传(没有字幕)的照片,推理停留在了是否是甄嬛传这部剧上面。

不过有一说一,这种双模型聚合的方式,确实让腾讯元宝更好用了。
腾讯元宝动作频频
过去十天,腾讯元宝加班加点,迎来一系列迭代和功能更新。
-
2月13日,腾讯元宝接入Deepseek-R1满血版,同时支持混元和DeepSeek两大模型;
-
2月17日,腾讯自研的深度思考模型“混元T1”在元宝灰度上线;
-
2月18日,腾讯紧急调用元宝支持微信搜索,进一步推动更多用户使用DeepSeek;
-
2月19日,深度思考模型“混元T1”完成全量上线;
-
2月21日,腾讯元宝再次上新,DeepSeek和混元两大模型均能理解图片信息。
在腾讯元宝,用户可以使用DeepSeek-R1满血版、推理模型混元T1进行深度思考,也可通过DeepSeek-V3、腾讯混元Turbo快速输出答案。
至此,元宝内的所有模型都支持理解图片、解析文件、联网搜公众号,从微信上传文件。
那么,如何系统的去学习大模型LLM?
作为一名从业五年的资深大模型算法工程师,我经常会收到一些评论和私信,我是小白,学习大模型该从哪里入手呢?我自学没有方向怎么办?这个地方我不会啊。如果你也有类似的经历,一定要继续看下去!这些问题啊,也不是三言两语啊就能讲明白的。
所以我综合了大模型的所有知识点,给大家带来一套全网最全最细的大模型零基础教程。在做这套教程之前呢,我就曾放空大脑,以一个大模型小白的角度去重新解析它,采用基础知识和实战项目相结合的教学方式,历时3个月,终于完成了这样的课程,让你真正体会到什么是每一秒都在疯狂输出知识点。
由于篇幅有限,⚡️ 朋友们如果有需要全套 《2025全新制作的大模型全套资料》,扫码获取~
👉大模型学习指南+路线汇总👈
我们这套大模型资料呢,会从基础篇、进阶篇和项目实战篇等三大方面来讲解。

👉①.基础篇👈
基础篇里面包括了Python快速入门、AI开发环境搭建及提示词工程,带你学习大模型核心原理、prompt使用技巧、Transformer架构和预训练、SFT、RLHF等一些基础概念,用最易懂的方式带你入门大模型。
👉②.进阶篇👈
接下来是进阶篇,你将掌握RAG、Agent、Langchain、大模型微调和私有化部署,学习如何构建外挂知识库并和自己的企业相结合,学习如何使用langchain框架提高开发效率和代码质量、学习如何选择合适的基座模型并进行数据集的收集预处理以及具体的模型微调等等。
👉③.实战篇👈
实战篇会手把手带着大家练习企业级的落地项目(已脱敏),比如RAG医疗问答系统、Agent智能电商客服系统、数字人项目实战、教育行业智能助教等等,从而帮助大家更好的应对大模型时代的挑战。
👉④.福利篇👈
最后呢,会给大家一个小福利,课程视频中的所有素材,有搭建AI开发环境资料包,还有学习计划表,几十上百G素材、电子书和课件等等,只要你能想到的素材,我这里几乎都有。我已经全部上传到CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】
相信我,这套大模型系统教程将会是全网最齐全 最易懂的小白专用课!!
更多推荐


所有评论(0)