项目报告书

一、项目概述

1. 项目名称

基于 ffmpeg-mcp 的智能视频处理 AI-Agent,github地址:https://github.com/JackyHua23/mcp_demo

2. 项目目标

本项目旨在打造一个基于MCP(Model Context Protocol)协议的智能视频处理平台,集成NVIDIA NIM大模型推理服务、FFmpeg强大视频处理能力,实现“用自然语言即可驱动专业视频编辑”的创新体验。

3. 背景与实际问题

随着短视频、直播等多媒体内容的爆发式增长,非专业用户对高效、智能的视频编辑需求日益提升。传统视频编辑门槛高、操作复杂,AI大模型虽强但缺乏与多媒体工具的深度融合。项目通过MCP协议打通AI与FFmpeg工具链,降低视频编辑门槛,让用户用自然语言即可完成复杂视频处理任务。


二、作品描述与亮点

1. 作品功能

  • 自然语言视频编辑:用户描述需求,AI自动理解并调用合适的FFmpeg工具链完成处理。

  • 专业视频处理:支持视频剪切、合并、分辨率调整、画中画、音频提取、帧提取、视频信息获取等全流程操作。

  • 现代化Web界面:响应式设计,支持拖拽上传、实时预览、流式进度反馈。

2. 项目架构

mcp_demo/
├── 🌐 Web 前端层
│   ├── static/
│   │   ├── index.html              # 主界面 - 现代化响应式设计
│   │   ├── demo_separated.html     # AI 对话演示页面
│   │   ├── test_stream.html        # 流式响应测试页面
│   │   ├── style.css               # 样式文件 - CSS Grid + Flexbox
│   │   └── script.js               # 前端逻辑 - 原生 ES6+
│   └── app.py                      # FastAPI Web 服务器
│
├── 🤖 AI 处理层
│   ├── ffmpeg_mcp_demo.py          # MCP 客户端核心
│   ├── ffmpeg_mcp_config.py        # 配置管理
│   └── demo_web.py                 # Web 演示脚本
│
├── 🎬 视频处理层 (子模块)
│   └── ffmpeg-mcp/                 # FFmpeg MCP 服务器
│       └── src/ffmpeg_mcp/
│           ├── server.py           # MCP 协议服务器
│           ├── cut_video.py        # 视频处理核心算法
│           ├── ffmpeg.py           # FFmpeg 命令封装
│           ├── typedef.py          # 类型定义和数据结构
│           └── utils.py            # 工具函数库
│
├── 📁 数据存储层
│   ├── uploads/                    # 用户上传文件
│   └── outputs/                    # 处理结果输出
│
└── ⚙️ 配置文件
    ├── pyproject.toml              # 项目依赖和配置
    ├── uv.lock                     # 依赖版本锁定
    ├── .gitmodules                 # Git 子模块配置
    └── env.example                 # 环境变量模板

3. 作品亮点

  • AI驱动的自动工具编排:AI智能解析用户意图,自动选择并组合底层视频处理工具。

  • 流式响应体验:处理进度与AI思考过程实时可见,极大提升交互感。

  • 极简操作门槛:无需掌握FFmpeg命令,人人可用。


三、MCP服务与客户端的构建

1. MCP服务端

  • FFmpeg-MCP子模块:实现MCP协议的FFmpeg工具服务,封装了视频查找、信息获取、剪切、合并、缩放、叠加、音频/帧提取等核心能力。

  • 服务端用Python实现,通过MCP协议暴露标准化API,便于AI-Agent自动调用。

2. MCP客户端

  • FFmpegMCPClient类:负责与MCP服务端通信,接收AI-Agent的指令,自动完成参数转换与任务分发。

  • 支持异步调用与流式结果返回,提升处理效率和用户体验。


四、Agentic AI平台框架与智能体构建

  • NVIDIA NIM大模型服务:作为智能体的“中枢大脑”,负责理解用户自然语言意图,生成MCP工具调用计划。

  • MCP协议:使用mcp_llm_bridge作为AI与工具链的桥梁,标准化工具描述与调用流程。

  • Agentic AI设计:智能体具备自主决策、工具选择、参数推理能力,能根据用户需求动态组合多步操作。


五、技术创新点

  • AI+MCP协议深度融合:首次将大模型自然语言理解与MCP标准工具协议结合,实现AI自动驱动多媒体工具链。

  • 流式交互与进度可视化:AI推理、工具执行、结果生成全流程流式反馈,极大提升用户体验。

  • 可扩展的工具链:MCP协议下可灵活扩展新工具,AI智能体可自动适配。

  • UI/UX创新:极简操作、拖拽上传、实时预览、智能提示,降低学习门槛。


六、UI页面优化

  • 响应式设计:采用CSS Grid与Flexbox,适配PC与移动端。

  • 交互友好:拖拽上传、文件管理、进度提示、操作按钮分组,提升易用性。

  • 流式反馈:处理进度、AI思考过程、结果展示均为流式输出,用户体验极佳。

  • 美观现代:配色清新、图标丰富、动画自然,提升视觉吸引力。

  • 可扩展性强:前端结构清晰,便于后续功能扩展与主题定制。


七、团队贡献

前端:张俊恺

后端:华俊颖

MCP:共同完成


八、未来展望

  • 工具链扩展:支持更多AI能力(如视频内容理解、智能剪辑、风格迁移等)和多媒体处理工具。

  • 多模态智能体升级:引入视频理解大模型,实现更复杂的多模态任务。

  • 智能推荐与自动化:基于用户历史与内容分析,自动生成小红书或公众号等文案,实现全自动视频生产线。

Logo

欢迎加入 MCP 技术社区!与志同道合者携手前行,一同解锁 MCP 技术的无限可能!

更多推荐