【开源】腾讯的通用Agent系统，轻松实现AI自主化

在AI领域，我们已经见证了像ChatGPT和Microsoft Copilot这样的强大工具，它们极大地提高了我们在日常任务中的效率。但是，这些系统本质上仍然是Copilot，用户仍然需要管理大部分工作，比如规划工作流程、提出正确的问题、优化模型输出等。这就像我们开车时，辅助驾驶系统可以帮助我们保持车道、控制车速，但最终的决策权仍然掌握在驾驶员手中。腾讯推出的Cognitive Kernel是一个

Python_金钱豹

1233人浏览 · 2025-02-04 20:57:25

Python_金钱豹 · 2025-02-04 20:57:25 发布

介绍

腾讯推出的Cognitive Kernel是一个为自动驾驶而生的开放式智能体框架，旨在打造具备真正自主决策能力的系统。该系统由三大核心组件构成：推理内核、感知内核和记忆内核，分别负责决策制定、环境感知和信息存储。推理内核是决策中枢，感知内核负责实时解读环境，而记忆内核则支持信息的存取和长期记忆功能。Cognitive Kernel旨在推进基于大型语言模型的自动驾驶研究，关注决策精确性与信息管理。作为一个开源项目，它欢迎全球研究人员和开发者加入，共同促进自动驾驶与AI技术的进步。

更详细的信息可以在相关的论文和项目中找到，例如在arXiv上的论文《Cognitive Kernel: An Open-source Agent System towards Generalist Autopilots》。

而Autopilot的目标则截然不同。它希望AI系统能够像真正的自动驾驶汽车一样，独立完成任务，无需人类过多干预。这需要AI系统能够主动感知环境、理解用户意图、自主决策，并最终完成整个任务。正如论文中提到的，一个Copilot系统可能帮助你起草一封邀请邮件的模板，而一个Autopilot系统则应该能够完全自主地撰写并发送这封邮件。

因此，为了实现这一目标，研究者们开始探索如何构建更智能、更自主的AI系统，这便是Cognitive Kernel诞生的背景。

三大核心组件

Cognitive Kernel的核心创新在于它采用了模型中心设计，而不是传统的环境中心设计。

环境中心设计：这种设计方式是为每个特定任务创建一个环境，并预先定义好一系列动作。智能体系统（通常是LLM）只能从这些预定义的动作中选择。这种方法简化了智能体系统的任务，使其更容易在特定环境中实现高性能，但不利于泛化。
模型中心设计：Cognitive Kernel则以LLM为核心，赋予其更大的自主性。当接收到任务后，LLM会生成逐步计划，执行相应的动作，并主动收集所需的新状态信息。这使得智能体系统能够动态调整策略，更灵活地应对未知情况。

为了实现这种模型中心的设计，Cognitive Kernel构建了三个核心概念组件：

推理内核（Reasoning Kernel）担当着系统的决策枢纽角色，它负责基于当前环境状态制定后续行动计划并实施。面对现实环境的不确定性，推理内核通过编程语言（Python）来实现，利用 “if/else” 逻辑来构建多种应对策略，并通过 “for loop” 进行循环测试，探索各种可能的选择。这类似于人类在处理复杂问题时，会精心规划方案，并在执行过程中根据实际情况进行灵活调整。
感知内核（Perception Kernel）充当系统的视觉感知工具，负责主动侦察并收集环境中的状态数据。它具备多样化的信息获取途径，既能通过网络浏览器与网页进行交互来访问互联网信息，也能读取本地存储的文件。感知内核的执行是一个精确的自主过程，它能够激活推理和记忆内核的进一步操作。这类似于我们通过观察和搜索来收集信息的方式。
在时间局部信息感知方面，感知内核能够通过操作浏览器与网页进行互动，以获取即时的更新信息，例如检索GitHub上最新的提交记录。

空间局部信息感知：访问本地文件，例如读取文档，查找特定关键词。
历史信息感知：通过记忆内核，读取和存储与用户的长期交互信息，实现个性化。

记忆内核（Memory Kernel）是系统的“记忆库”，承担着保存和提取历史状态信息的任务。它运用了一个分级的信息管理机制，将数据细分为文档、命题、关键概念等不同层级，并通过语义索引（即嵌入技术）来实现信息的精确检索。这种方法使得检索相关信息更为精准。就如同人脑的功能，记忆内核能够存储、检索并利用过往信息来辅助决策过程。

这三大内核紧密结合，构成了一个完整的自主Agent系统。

关键技术的深入解读

详细解读论文中使用的关键技术和方法：

1️⃣ 原子动作与编程语言：

Cognitive Kernel 不使用预定义的高级API调用，而是鼓励推理内核使用普通人可以执行的原子动作，比如“打开文件”、“点击按钮”。
系统将这些原子动作组合成复杂的操作，从而完成更高级的任务。
为了实现这种复杂的组合，Cognitive Kernel 选择使用编程语言（Python）作为计划和执行的媒介。
为什么要选择编程语言？ 因为编程语言具有更强的灵活性，可以处理不确定性，并且能利用循环、并行执行等机制提高效率。比如，可以用“if/else”语句来应对不同的情况，用“for loop”来多次尝试不同的选项。

2️⃣ 多粒度信息管理系统：

为了有效地管理记忆内核中的信息，Cognitive Kernel 采用了多粒度信息管理系统。这个系统将信息分解为以下几个层级：
文档（Documents）：最粗粒度的信息，即原始的输入文档。
命题（Propositions）：将文档中的句子分解为语义完整的单元，确保不丢失任何信息。例如，将“黄河在中国，长5464千米”分解为“黄河在中国”和“黄河的长度是5464千米”。
关键概念与视角（Key concept and perspective）：提取命题中的关键概念和视角，例如在“黄河在中国”中，关键概念是“黄河”，视角是“国家”。
提及的概念（Mentioned Concepts）：记录命题中所有被提及的概念，用于硬匹配。例如，“黄河在中国"中，提及的概念包括"黄河"和"中国”。
系统会为每个粒度的信息创建语义索引（嵌入），以便更准确地检索。
在检索时，系统会根据查询语句，从不同粒度的信息中寻找相关内容，并进行排序。

3️⃣ 两阶段模型训练：

Cognitive Kernel 采用两阶段训练过程，以应对模型中心设计带来的挑战。
第一阶段：使用监督微调方法，训练模型具备基本问题解决能力和调用原子动作的能力。这就像训练一个学生掌握基本技能一样。
第二阶段：将第一阶段训练的模型在线部署，收集真实世界中的系统输出轨迹。然后，使用高质量的轨迹数据和用户反馈，进一步训练模型，增强其泛化能力。这就像让学生在实践中不断学习和提高。

4️⃣ Docker 化部署：

为了实现高效、安全的部署，Cognitive Kernel 被组织成多个独立的 Docker 容器。
每个容器负责不同的功能，例如：前端用户界面、后端计划执行、网页访问、数据库管理和推理模型服务。容器之间通过API进行通信，这保证了系统的高并行性、安全性和可靠性。
这种方式也更便于扩展和维护。

应用场景

腾讯开源的Cognitive Kernel作为一个面向通用自动驾驶的开放式智能体系统，其应用场景相当广泛。以下是一些主要的应用场景：

自动驾驶：Cognitive Kernel最初的设计目标是为了实现真正的自主决策能力，特别是在自动驾驶领域。这意味着它可以应用于自动驾驶汽车，帮助车辆在没有人类干预的情况下进行自主导航和决策。
实时信息管理：Cognitive Kernel能够处理实时信息，例如在自动驾驶中实时感知周围环境，并做出相应的决策。
私人信息管理：系统可以管理个人或私有的信息，例如用户的个人偏好、历史数据等，以提供更加个性化的服务。
长期记忆管理：Cognitive Kernel具备长期记忆管理的能力，这意味着它能够存储和回忆过去的交互和事件，用于改进未来的决策过程。
多模态感知能力：Cognitive Kernel具有处理多种类型数据的能力，例如视觉、听觉和其他感官输入，使其可以应用于需要多模态感知的复杂场景。
自我改进：通过搜索和反馈机制，Cognitive Kernel能够进行自我改进，提高其性能和效率。
业务和企业管理：除了自动驾驶，Cognitive Kernel还可以应用于企业管理和业务流程自动化，例如自动处理邮件、会议安排、数据分析等任务。
智能家居：系统可以根据用户习惯和需求，自动控制家电设备，实现智能家居的自动化管理。

这些应用场景展示了Cognitive Kernel的广泛适用性和潜力。随着技术的进一步发展，Cognitive Kernel有可能在更多领域发挥作用。

如何学习大模型 AI ？

由于新岗位的生产效率，要优于被取代岗位的生产效率，所以实际上整个社会的生产效率是提升的。

但是具体到个人，只能说是：

“最先掌握AI的人，将会比较晚掌握AI的人有竞争优势”。

这句话，放在计算机、互联网、移动互联网的开局时期，都是一样的道理。

我在一线互联网企业工作十余年里，指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家，也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑，所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限，很多互联网行业朋友无法获得正确的资料得到学习提升，故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

在这里插入图片描述