为AI Agent打造的高可靠浏览器自动化引擎 ai项目分享
云老师分享一下一些简历的项目,供大家参考
项目定位与核心价值
核心架构设计:Planner-SubAgent分层架构
关键技术突破与优化
- 动态元素定位系统:解决Selector失效难题
- 人机协作状态机:实现异常场景的半自动化处理
- Attached 模式:消除环境准备瓶颈
- 模型容错与降级:保障AI驱动任务的稳定性
同时,BDD已作为MCP Server被Claude Code、Cursor、Windsurf等主流AI IDE集成,为AI Agent提供稳定的浏览器自动化能力支撑。
总结与展望
项目定位…
作为MCP SJ
土流
AI IDE集成,解决传统自动化工具在动态Web应用中的可靠性问题。
核心架构:独立设计 Planner-SubAgent分层架构,Planner负责任务规划与决策,BrowserSubAgent通过CDP协议执行浏览器操作;支持3种运行时模式(Managed/Attached/Auto),适配隔离测试、生产环境复用、智能选择等场景
动态元素定位系统:针Shadow DOM、懒加载、动态渲染导致的CSS Selector失效问题(定位成功率<60%),设计 Set-of-Mark视觉定位算法,通过元素特征指纹化(标签40%+ARIA角色15%+文本相似度×60 +空间距离衰减-20/25px)实现跨渲染周期的元素追踪;DOM变化后重匹配成功率92%,整体定位成功率提升至95%+
人机协作状态机设计状态任务生命周期(queued→running→waiting→manual→completed/failed),Agent自主处理验证码、弹窗、异常页面成功率>90%;异常时自动暂停并保存完整上下文(截图、DOM快照、操作历史),人工接管后断点恢复,单次任务人工干预时间从15min降至<2min,降低人工值守成本90%
Attached模式消除环境准备瓶颈:通过Chrome DevTools Protocol attach到用户已登录浏览器实例,直接复用Cookie/LocalStorage登录态;相比传统Playwright每次启动新浏览器+重新登录(平均5min),测试用例准备时间降至0,支持在已登录业务系统中直接执行自动化,无需维护账号池
模型容错与降级:实现OpenAI Planner的模型自动降级策略,GPT-5.4不可用时200ms内自动降级至fallback列表其他模型,单次请求失败率从8%降至<1%,任务整体成功率提升至99%
云老师分享一下一些简历的项目,供大家参考
随着AI Agent与AI辅助开发工具(如Claude Code、Cursor、Windsurf)的快速普及,浏览器自动化已成为AI Agent与真实Web应用交互的核心能力。然而,传统的浏览器自动化工具(如Playwright、Selenium)在面对现代Web应用的复杂场景时,暴露出了诸多可靠性瓶颈:动态渲染、Shadow DOM、懒加载导致CSS Selector频繁失效;登录态维护成本高,无法复用用户已有会话;AI模型调用不稳定导致任务中断;异常场景依赖人工处理,维护成本高昂。
为解决这些痛点,开发了Browser Debugging Daemon(BDD)——一款面向AI Agent的浏览器自动化基础设施,作为MCP Server无缝集成主流AI IDE,为AI Agent提供稳定、可靠、高效的浏览器自动化能力,彻底解决传统工具在动态Web应用中的可靠性难题。
项目定位与核心价值
BDD的核心定位是为AI Agent提供高可靠的浏览器自动化底层能力,通过标准化的MCP协议接入,成为Claude Code、Cursor、Windsurf等主流AI IDE的自动化能力底座。其核心价值在于:
- 解决传统自动化工具在动态Web场景下的可靠性问题,大幅提升AI Agent与Web应用交互的成功率;
- 降低AI Agent自动化任务的人工维护成本,实现异常场景的半自动化处理;
- 提供灵活的运行模式与环境适配能力,满足隔离测试、生产环境复用、智能选择等多场景需求。
核心架构设计:Planner-SubAgent分层架构
为实现高内聚、低耦合的设计,BDD采用了Planner-SubAgent分层架构,将任务规划与执行解耦,兼顾灵活性与可靠性:
- Planner(规划层):负责任务的整体规划、决策与流程控制,基于AI模型理解用户指令,拆解为可执行的浏览器操作序列,并根据任务状态动态调整执行策略。
- BrowserSubAgent(执行层):通过Chrome DevTools Protocol(CDP)直接与浏览器实例通信,执行具体的浏览器操作,如元素点击、页面导航、数据提取等,同时负责底层异常的捕获与上报。
为适配不同场景的需求,BDD设计了三种运行模式:
关键技术突破与优化
1. 动态元素定位系统:解决Selector失效难题
现代Web应用广泛使用Shadow DOM、懒加载、动态渲染等技术,导致传统基于CSS Selector的定位方式成功率不足60%,严重影响自动化任务的稳定性。
针对这一痛点,BDD设计了Set-of-Mark 视觉定位算法,通过元素特征指纹化实现跨渲染周期的元素追踪:
- 多维度特征融合:结合标签类型(权重40%)、ARIA角色(权重15%)、文本相似度(权重×60)与空间距离衰减(-20/25px)构建元素特征指纹;
- 动态匹配机制:在DOM结构变化后,通过特征指纹重新匹配目标元素,实现跨渲染周期的稳定追踪。
优化效果:DOM变化后重匹配成功率达92%,整体元素定位成功率提升至95%+,彻底解决了动态Web场景下的元素定位失效问题。
2. 人机协作状态机:实现异常场景的半自动化处理
自动化任务在执行过程中不可避免会遇到验证码、弹窗、异常页面等场景,传统工具缺乏有效的异常处理机制,往往需要人工介入,维护成本极高。
BDD设计了6状态任务生命周期状态机(queued→running→waiting→manual→completed/failed),实现了AI自主处理与人工接管的无缝衔接:
- 异常自主处理:针对常见异常(如弹窗、页面加载超时),AI Agent可自主识别并处理,成功率超过90%;
- 断点恢复机制:当遇到无法自主处理的场景时,系统自动暂停任务并保存完整上下文(截图、DOM快照、操作历史),人工接管后可快速恢复执行;
- 效率提升:单次任务人工干预时间从传统的15分钟降至2分钟以内,人工值守成本降低90%。
3. Attached 模式:消除环境准备瓶颈
传统自动化工具(如Playwright)每次执行任务都需要启动全新的浏览器实例,并重新完成登录流程,平均耗时5分钟,且需要维护大量账号池来支撑多场景自动化,成本高昂。
BDD的Attached模式通过Chrome DevTools Protocol直接attach到用户已登录的浏览器实例,复用用户的Cookie、LocalStorage等登录态,实现了:
- 测试用例准备时间降至0,无需启动新浏览器或重新登录;
- 支持在已登录的业务系统中直接执行自动化任务,无需维护账号池,大幅降低环境准备成本。
4. 模型容错与降级:保障AI驱动任务的稳定性
AI Planner依赖大模型进行任务规划,而模型服务的不可用、超时或错误会直接导致任务失败。BDD实现了OpenAI Planner的模型自动降级策略:
- 当主模型(如GPT-5.4)不可用时,系统可在200ms内自动降级到fallback列表中的其他模型;
- 单次请求失败率从8%降至1%以下,任务整体成功率提升至99%,保障了自动化任务的稳定执行。
同时,BDD已作为MCP Server被Claude Code、Cursor、Windsurf等主流AI IDE集成,为AI Agent提供稳定的浏览器自动化能力支撑。
总结与展望
Browser Debugging Daemon通过分层架构设计、视觉定位算法、人机协作状态机、Attached运行模式与模型容错降级策略,系统性解决了传统浏览器自动化工具在AI Agent场景下的可靠性痛点,大幅提升了自动化任务的成功率与执行效率,降低了人工维护成本。
未来,我将继续优化BDD的能力:进一步提升复杂场景下的元素定位精度,支持更多浏览器内核;拓展多标签页、多窗口的自动化能力;优化AI Planner的任务拆解逻辑,实现更复杂的端到端自动化流程,为AI Agent提供更强大、更可靠的浏览器交互能力。
学AI大模型的正确顺序,千万不要搞错了
🤔2026年AI风口已来!各行各业的AI渗透肉眼可见,超多公司要么转型做AI相关产品,要么高薪挖AI技术人才,机遇直接摆在眼前!
有往AI方向发展,或者本身有后端编程基础的朋友,直接冲AI大模型应用开发转岗超合适!
就算暂时不打算转岗,了解大模型、RAG、Prompt、Agent这些热门概念,能上手做简单项目,也绝对是求职加分王🔋

📝给大家整理了超全最新的AI大模型应用开发学习清单和资料,手把手帮你快速入门!👇👇
学习路线:
✅大模型基础认知—大模型核心原理、发展历程、主流模型(GPT、文心一言等)特点解析
✅核心技术模块—RAG检索增强生成、Prompt工程实战、Agent智能体开发逻辑
✅开发基础能力—Python进阶、API接口调用、大模型开发框架(LangChain等)实操
✅应用场景开发—智能问答系统、企业知识库、AIGC内容生成工具、行业定制化大模型应用
✅项目落地流程—需求拆解、技术选型、模型调优、测试上线、运维迭代
✅面试求职冲刺—岗位JD解析、简历AI项目包装、高频面试题汇总、模拟面经
以上6大模块,看似清晰好上手,实则每个部分都有扎实的核心内容需要吃透!
我把大模型的学习全流程已经整理📚好了!抓住AI时代风口,轻松解锁职业新可能,希望大家都能把握机遇,实现薪资/职业跃迁~
这份完整版的大模型 AI 学习资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】

更多推荐


所有评论(0)