2026山东大学软件学院创新项目实训博客(九)

晓晓kk

199人浏览 · 2026-06-20 19:27:46

晓晓kk · 2026-06-20 19:27:46 发布

【智绘博弈】AI 模块最终收束——让识别、Agent 与表达解读各归其位

项目：智绘博弈 —— 人机对抗绘画猜词与表达策略分析系统

角色：AI 识别 & 心理解读模块负责人

日期：2026.6.17 - 2026.6.18

一、本阶段目标

到第八篇博客为止，项目的核心 AI 模块已经基本成型。ARGUS-0 负责图像识别和分类追踪，觉醒 Agent 能够作为玩家参与作画和猜词，RELAY-7 能进行语义判断，MCP Agent 也可以通过协议接入。画风档案和 ARGUS 监测报告则尝试从绘画行为中生成解释。

功能已经很多了。

所以这一阶段我没有继续设计新的 AI 玩法，而是把重点放在 AI 模块的最终集成、职责收束和上线前检查。

这一阶段，我想先确认不同 AI 角色是否都服务于同一条主线，再明确 ARGUS-0、觉醒 Agent、MCP Agent 与 RELAY-7 的边界。我也重新检查了识别、语义判断和报告生成在四种模式中的流程，并补齐模型调用失败时的降级逻辑。最后，项目不该再继续堆叠概念，而应该形成一条能在答辩中讲清楚的 AI 演示路线。

这一篇博客更像是 AI 模块的收尾记录。它不再聚焦单个模型，而是记录我如何判断这些 AI 能力是否已经形成清楚、可解释的系统。

二、为什么现在应该停止加新功能

项目做到后期，很容易进入一种状态：每想到一个点都觉得可以再做一点。

比如：可以加更多 Agent 日常互动、加更多徽章、加更复杂的排行榜、可以让每种模式都有专属动画、可以把心理报告做得更像完整档案系统……

这些想法都不是坏想法，但它们会带来一个风险：项目主线被稀释。

现在项目已经有：注册和昵称、创建和加入房间、准备就绪机制、标准、受限、反向、回声传递四种模式、ARGUS-0 图像识别、AI 推理解释、觉醒 Agent 作画和猜词、MCP 外部 Agent 接入、RELAY-7 语义校准、回声传递四象限结局、画风档案、ARGUS 监测报告、声望成长、行动手册和叙事页面。

这些功能已经足够支撑一个完整项目。

继续加新功能，不一定会让项目更成熟，反而可能让展示更困难。老师很可能只听到一堆功能名，却抓不到核心。

项目的重点从“还能加什么”变成“已有功能能不能稳定、清楚、有逻辑地展示出来”。

三、AI 术语的可理解性

项目里有很多叙事词：意识代号、秘密频道、信号频率、传译协议、ARGUS-0……这些词能增强氛围，但对第一次进入网页的用户来说，可能会造成理解成本。前期测试中就有人反馈，“通讯代号”这种说法不够直观，不知道是不是账号、昵称还是密码。

在联调时，我参与确定了 AI 相关术语的解释原则：保留叙事词，但旁边给出现实解释。

例如，“意识代号”其实就是其他玩家看到的昵称，“信号频率”是 6 位房间码，“秘密频道”对应游戏房间，“传译协议”则是玩法模式。

行动手册也增加了术语翻译部分。我的关注点不是替代前端设计，而是确保玩家进入 AI 相关玩法前，能理解自己正在面对什么机制。

最终的平衡是：第一次出现叙事词时，给一个简单的人话解释。

四、各模式中的 AI 最终逻辑

项目现在有四种模式，每种模式中的 AI 角色也略有不同。

1. 标准传译

这是最基础的模式。

玩家轮流作画，其他人猜词，ARGUS-0 同时识别画作。

核心目标是：

让同伴猜对，同时尽量让 ARGUS-0 猜错。

这里 ARGUS-0 是最直接的对抗方。

觉醒 Agent 和 MCP Agent 可以在这个模式中作为协作玩家参与选词、作画、猜词和聊天。为了保证作画结果可识别，只要房间里有作画 Agent，系统就只从“物品”和“动作”词库出题；纯真人房间仍可使用完整词库。

2. 受限传译

受限模式限制画具，只能使用几何工具表达词语。

它的意义是考验玩家如何在规则压缩下表达概念。

从 AI 角度看，这相当于提高 ARGUS-0 和玩家之间的表达难度。

觉醒 Agent 和 MCP Agent 也可以参与受限传译，但仍遵守房间的作画与出题边界；它们不是额外的裁判，而是和人类同样承担传译任务的协作玩家。

3. 记忆回溯

反向模式不让玩家画，而是播放历史画作的回放。

玩家要抢在 ARGUS-0 完成归档前猜出画的是什么。

这个模式强调“识别速度”和“逐笔过程”。

这里的 Agent 不参与抢答或作画。它们只作为档案旁白，帮助解释历史画作的观察角度，避免挤占真人玩家和 ARGUS-0 之间的抢答对抗。

4. 回声传递

回声传递是后期最能体现项目主旨的模式。

它不只比较谁猜对，而是同时比较 N 条人类语义链能否保持连贯，以及 ARGUS-0 能否追踪到各条链的原始概念。

所有真人玩家同时推进自己的链路：先各自选词并作画，之后按顺位接收上家的内容，交替完成猜词或作画。觉醒 Agent 和 MCP Agent 不进入这些人类链，只能以旁观解释者身份存在。

根据链路连贯度与机器追踪结果，最终会形成完美传递、暴露传递、混沌噪声或分类接管四种结局。

这让“骗过 AI，让人类懂你”变成了具体规则。

五、AI 调用的健壮性与兜底

我重点检查了与 AI 模块直接相关的异步流程，包括 Agent 自动作画、多模态识别、DeepSeek 语义判断、报告后台生成以及 MCP 外部 Agent 调用。

这些地方都可能失败。

所以后期做了很多兜底设计。

1. 模型调用失败

AI 作画失败时，会回退到本地模板或兜底图形。

RELAY-7 调用失败时，会使用本地规则判断，例如完全相等、包含关系、同分类等。

2. MCP Agent 连接异常

外部 Agent 通过 MCP 接入时，可能出现连接中断、动作超时或能力不匹配。系统将 Agent 与真人玩家区分处理：Agent 失败不会阻塞真人流程，也不会进入不适合它承担的回声传递真人链。

六、AI 辅助开发记录

这一阶段我继续用 AI 辅助做收尾，但和前几次不同，这次更多是讨论“要不要做”和“做到哪里停”。

第一轮：是否继续增加新功能

我一开始还在想能不能继续加荣誉系统、更多互动、更多页面。AI 给出的建议是：项目已经够成熟，应该停止新增大功能，转向收束。

这个提醒很重要。

因为项目做到后面，很容易觉得“再加一点会更完整”。但如果每个想法都做，最后反而会失去重点。

第二轮：AI 角色边界

我曾经考虑让 Agent 在所有模式中都作为玩家参与。AI 协助我重新检查玩法后，最终收束为：标准与受限模式中 Agent 是玩家；记忆回溯中 Agent 只作档案旁白；回声传递中 Agent 只作旁观解释。这让 AI 协作不会反过来破坏“人类语义链”的核心设计。

第三轮：博客结构收束

我一开始想把第八篇写成最后一篇，但内容太多。后来决定让第八篇集中记录 AI 多角色系统，第九篇再写最终集成与上线总结。这样每篇都有清晰主线，不会变成大杂烩。

七、我负责部分的最终梳理

从整个项目来看，我主要负责的是 AI 识别 & 心理解读模块。

现在可以整理成五个方面：

1. ARGUS-0 图像识别

接入多模态模型，对玩家画作进行识别，输出猜测、置信度和推理解释。

2. AI 识别解释链路

不仅展示答案，还展示模型观察、推理和分类依据，让识别过程更可解释。

3. 觉醒 Agent 玩家

实现 AI Agent 的作画、猜词、聊天和房间参与，让 AI 从后台裁判变成游戏参与者。它们只在标准传译和受限传译中作为玩家；记忆回溯里做档案旁白，回声传递里做旁观解释，不进入真人传递链。

4. RELAY-7 语义校准

支持同义判断和联想判断，解决普通字符串匹配无法处理自然表达的问题。

5. 画风档案与表达策略分析

采集绘画行为数据，聚合特征，生成 Agent 私密研究和 ARGUS 监测档案。它用于娱乐性的表达策略分析，不构成医学或心理诊断。

我的模块不仅让 AI 能识别画作，还让 AI 在游戏中承担了分类、协作、语义判断和表达分析等不同角色，支撑了项目的人机对抗玩法和赛后解释系统。

八、个人思考

这个项目做下来，我最大的感受是：真正难的不是“接一个 AI 模型”，而是让 AI 合理地嵌入系统。

单独看每个功能，好像都可以说成模型调用：看图猜词是模型调用，语义判断是模型调用，画风档案是模型调用，Agent 聊天也是模型调用。

但如果只是把这些调用堆在一起，项目不会自然变成熟。

真正让它变完整的，是每个 AI 角色都有明确职责，每个 AI 输出都能进入游戏规则，玩家也能理解 AI 为什么这样判断。即使 AI 失败，游戏仍然能够继续，叙事、玩法和报告也能互相解释。

我以前会更关注“这个功能能不能做出来”，现在会多想一步：

这个功能在项目里扮演什么角色？它是否让主线更清楚？

这也是我觉得项目现在可以停止加新功能的原因。

不是因为没有东西可做，而是因为主线已经完整了。继续扩展不一定增加价值，反而可能让系统变得分散。

九、本阶段总结

这一阶段完成的是项目从“功能丰富”到“体验收束”的转变。

这一阶段，我梳理了四种模式中的 AI 角色与参与边界，完善了 ARGUS-0、RELAY-7、觉醒 Agent 与 MCP Agent 的协作关系，也检查了模型调用、Agent 行为和语义判定的降级逻辑。同时，我收束了画风档案与表达策略分析的表述边界，并为最终答辩准备了一条清晰的 AI 模块演示路线。

到这里，项目已经有清晰的人机对抗主线，也有可解释的 ARGUS-0 图像识别、觉醒 Agent 与真实 MCP Agent 接入、RELAY-7 语义校准和回声传递结局，以及赛后档案与表达策略分析。

所以接下来不应该再大规模增加新功能，而应该进入最终测试、演示准备和文档整理。

如果用一句话总结现在的项目状态：

《智绘博弈》已经不只是“你画我猜 + AI 识别”，而是一套围绕人类表达、机器分类、Agent 协作和赛后解读构建的人机传译系统。

MCP技术社区

欢迎加入 MCP 技术社区！与志同道合者携手前行，一同解锁 MCP 技术的无限可能！

更多推荐

AI Agent 很火，但真正决定 AI 效率的，是「数据入口」——聊聊相机连接为什么越来越重要

MCP技术社区

Havenlon 应用场景：企业内部业务系统与运维关键脚本如何接入执行控制边界

MCP技术社区

工程师实战——AI Agent 的底层逻辑与实战落地

文章摘要：本文从工程师视角系统解析AI Agent的概念层级与技术架构。作者指出当前市场对Agent存在概念混淆，提出Agent能力应从纯问答到全自动划分为四级连续谱系。核心要素包括工具调用、持久记忆和执行循环三大技术模块，并详细分析了研究型、写作型、代码型和业务流程四类典型应用场景。最后以搭建Telegram聊天机器人为例，演示了基于Claude API的Agent实现方案，涵盖环境配置、模型