
最强模型Llama 3.1 405B正式发布,扎克伯格:开源引领新时代
Llama 3.1 405B 是首个公开可用的模型,在常识、可操纵性、数学、工具使用和多语言翻译等方面可与顶级 AI 模型相媲美。Meta 表示最新一代的 Llama 将激发新的应用程序和建模范式,包括利用合成数据生成来提升和训练更小的模型,以及模型蒸馏 —— 这是一种在开源领域从未达到的能力。与此同时,Meta 还推出了 8B 和 70B 模型的升级版本,支持多种语言,上下文长度达到 128K,
刚刚,大家期待已久的 Llama 3.1 官方正式发布了!
Meta 官方发出了「开源引领新时代」的声音。
在官方博客中,Meta 表示:「直到今天,开源大语言模型在功能和性能方面大多落后于封闭模型。现在,我们正在迎来一个开源引领的新时代。我们公开发布 Meta Llama 3.1 405B,我们认为这是世界上最大、功能最强大的开源基础模型。迄今为止,所有 Llama 版本的总下载量已超过 3 亿次,我们才刚刚开始。」
Meta 创始人、CEO 扎克伯格也亲自写了篇长文《Open Source AI Is the Path Forward》,阐述为什么开源对所有开发者、对 Meta、对世界都是好事。
此次发布的要点包括:
-
最新的系列模型将上下文长度扩展到了 128K、增加了对八种语言的支持,并包括顶级开源模型 Llama 3.1 405B;
-
Llama 3.1 405B 独树一帜,Meta 官方称其可与最好的闭源模型相媲美;
-
此次发布还提供了更多与模型配合使用的组件(包括参考系统)来将 Llama 打造为一个系统;
-
用户通过 WhatsApp 和 meta.ai 就可以体验 Llama 3.1 405B 了。
各位网友可以下载尝鲜了。
Llama 3.1 介绍
Llama 3.1 405B 是首个公开可用的模型,在常识、可操纵性、数学、工具使用和多语言翻译等方面可与顶级 AI 模型相媲美。
Meta 表示最新一代的 Llama 将激发新的应用程序和建模范式,包括利用合成数据生成来提升和训练更小的模型,以及模型蒸馏 —— 这是一种在开源领域从未达到的能力。
与此同时,Meta 还推出了 8B 和 70B 模型的升级版本,支持多种语言,上下文长度达到 128K,推理能力也更强。最新模型支持高级用例,例如长篇文本摘要、多语言对话智能体和编码助手。
举例来说,Llama 3.1 可以将故事翻译成西班牙语:
当用户提问「有 3 件衬衫、5 条短裤和 1 条连衣裙,假如要旅行 10 天。准备的衣服够不够?」模型能够快速的进行推理。
长上下文:对于上传的文档,Llama 3.1 能够分析和总结最多 8k token 的大型文档。
编码助手,对于用户要求,可以快速编写代码:
此外,Llama 3.1 405B 的开发者还发推文「剧透」,表示开发 GPT-4o 一样集成语音和视觉能力的模型还在开发中。
Meta 还对开源协议进行了更改,允许开发人员使用 Llama 模型(包括 405B)的输出来改进其他模型。此外,为了兑现开源承诺,从今天开始,Meta 将这些模型提供给社区,用户可以在 llama.meta.com 和 Hugging Face 上下载。
下载地址:
-
https://huggingface.co/meta-llama
-
https://llama.meta.com/
模型评估
Meta 在超过 150 个基准数据集上进行了评估,此外,他们还进行了广泛的人类评估。
实验结果表明,旗舰模型 Llama 3.1 405B 在一系列任务中与领先的基础模型包括 GPT-4、GPT-4o 和 Claude 3.5 Sonnet 具有竞争力。此外,8B 和 70B 小型模型与具有相似数量参数的闭源和开源模型具有竞争力。
模型架构
作为 Meta 迄今为止最大的模型,使用超过 15 万亿个 token 训练 Llama 3.1 405B 是一项重大挑战。为了实现这种规模的训练,Meta 优化了整个训练堆栈,并在超过 16,000 个 H100 GPU 上训练,使该模型成为第一个在此规模上训练的 Llama 模型。
为了解决这个问题,Meta 在设计上做出了以下一些选择,重点保持模型开发过程的可扩展性和简单性。
-
选择了仅进行少量调整的标准解码器 Transformer 模型架构,而不是混合专家模型,以最大限度地提高训练稳定性。
-
采用迭代后训练程序,每轮都使用监督微调和直接偏好优化。这使 Meta 能够为每轮创建最高质量的合成数据,并提高每项功能的性能。
与之前版本的 Llama 相比,Meta 提高了用于预训练和后训练的数据数量和质量,如为预训练数据开发更仔细的预处理和管理管道,为后训练数据开发更严格的质量保证与过滤方法。
正如语言模型 scaling laws 所预期的那样,Meta 新旗舰模型优于使用相同程序训练的较小模型。Meta 还使用 405B 参数模型来提高较小模型的后训练质量。
为了支持 405B 模型的大规模推理产出,Meta 将模型从 16 比特 (BF16) 量化为 8 比特 (FP8) ,有效降低了所需的计算要求,并允许模型在单个服务器节点运行。
指令和聊天微调
Llama 3.1 405B 努力提高模型响应用户指令的实用性、质量和详细指令遵循能力,同时确保高水平的安全性。
在后训练阶段,研究团队通过在预训练模型的基础上进行几轮对齐来构建最终的聊天模型。每轮都涉及监督微调(SFT)、拒绝采样(RS)和直接偏好优化(DPO)。
研究团队使用合成数据生成来产生绝大多数 SFT 示例,并多次迭代以在所有功能上生成越来越高质量的合成数据。此外,研究团队还采用了多种数据处理技术,以过滤这些合成数据,达到最高质量,并可以跨功能扩展微调数据量。
Llama 系统
Llama 模型一直是作为 AI 系统的一部分而存在的,可以协调多个组件,包括调用外部工具。Meta 旨在超越基础模型,让开发人员能够灵活地设计和创建符合其愿景的定制产品。
为了在模型层之外负责任地开发人工智能,Meta 发布了一个完整的参考系统,其中包括多个示例应用程序以及新组件,例如 Llama Guard 3(一种多语言安全模型)和 Prompt Guard(一个 prompt 注入过滤器)。这些示例应用程序是开源的,可以由开源社区构建。
为了与行业、初创公司和开源社区进行更广泛的合作,帮助更好地定义组件的接口,Meta 在 GitHub 上发布了针对「Llama Stack」的评论请求。Llama Stack 是一组标准化接口,用于构建规范的工具链组件(微调、合成数据生成)和智能体应用程序。这有助于更轻松地实现互操作性。
与封闭模型不同,Llama 模型权重可供下载。开发人员可以根据自己的需求和应用程序完全定制模型,在新数据集上进行训练,并进行额外的微调。
使用 Llama 3.1 405B 进行开发
对于普通开发者来说,部署 405B 这样大规模的模型无疑是一项挑战,它需要大量的计算资源和专业技能。在与开发者社区的交流中,Meta 意识到,生成式 AI 的开发不仅仅是给模型输入 prompt。他们期望所有开发者都能在以下领域充分开发 Llama 3.1 405B 的潜力:
-
实时和批量推理
-
监督式微调
-
测试和评估模型在特定应用中的性能
-
持续预训练
-
检索增强生成(RAG)
-
函数调用
-
合成数据生成
发布即日起,Llama 3.1 405B 模型的所有高级功能都将开放,开发者们可以即刻上手。开发者们还可以探索更高阶的工作流,例如基于模型蒸馏的合成数据生成。这次升级,Meta 还无缝集成了合作伙伴 AWS、NVIDIA 和 Databricks 提供的解决方案,以实现更高效的检索增强生成(RAG)。此外,Groq 已经为在云端部署模型进行了低延迟推理的优化,也对本地系统进行了类似的性能提升。
Meta 这次还为 Llama 3.1 405B 内置了「工具大礼包」,内含 vLLM、TensorRT 和 PyTorch 等关键项目,从模型开发到部署「开箱即用」,一步到位。
如何系统的去学习大模型LLM ?
作为一名热心肠的互联网老兵,我意识到有很多经验和知识值得分享给大家,也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑,所以在工作繁忙的情况下还是坚持各种整理和分享。
但苦于知识传播途径有限,很多互联网行业朋友无法获得正确的资料得到学习提升,故此将并将重要的 AI大模型资料
包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。
😝有需要的小伙伴,可以V扫描下方二维码免费领取🆓
一、全套AGI大模型学习路线
AI大模型时代的学习之旅:从基础到前沿,掌握人工智能的核心技能!
二、640套AI大模型报告合集
这套包含640份报告的合集,涵盖了AI大模型的理论研究、技术实现、行业应用等多个方面。无论您是科研人员、工程师,还是对AI大模型感兴趣的爱好者,这套报告合集都将为您提供宝贵的信息和启示。
三、AI大模型经典PDF籍
随着人工智能技术的飞速发展,AI大模型已经成为了当今科技领域的一大热点。这些大型预训练模型,如GPT-3、BERT、XLNet等,以其强大的语言理解和生成能力,正在改变我们对人工智能的认识。 那以下这些PDF籍就是非常不错的学习资源。
四、AI大模型商业化落地方案
阶段1:AI大模型时代的基础理解
- 目标:了解AI大模型的基本概念、发展历程和核心原理。
- 内容:
- L1.1 人工智能简述与大模型起源
- L1.2 大模型与通用人工智能
- L1.3 GPT模型的发展历程
- L1.4 模型工程
- L1.4.1 知识大模型
- L1.4.2 生产大模型
- L1.4.3 模型工程方法论
- L1.4.4 模型工程实践 - L1.5 GPT应用案例
阶段2:AI大模型API应用开发工程
- 目标:掌握AI大模型API的使用和开发,以及相关的编程技能。
- 内容:
- L2.1 API接口
- L2.1.1 OpenAI API接口
- L2.1.2 Python接口接入
- L2.1.3 BOT工具类框架
- L2.1.4 代码示例 - L2.2 Prompt框架
- L2.2.1 什么是Prompt
- L2.2.2 Prompt框架应用现状
- L2.2.3 基于GPTAS的Prompt框架
- L2.2.4 Prompt框架与Thought
- L2.2.5 Prompt框架与提示词 - L2.3 流水线工程
- L2.3.1 流水线工程的概念
- L2.3.2 流水线工程的优点
- L2.3.3 流水线工程的应用 - L2.4 总结与展望
- L2.1 API接口
阶段3:AI大模型应用架构实践
- 目标:深入理解AI大模型的应用架构,并能够进行私有化部署。
- 内容:
- L3.1 Agent模型框架
- L3.1.1 Agent模型框架的设计理念
- L3.1.2 Agent模型框架的核心组件
- L3.1.3 Agent模型框架的实现细节 - L3.2 MetaGPT
- L3.2.1 MetaGPT的基本概念
- L3.2.2 MetaGPT的工作原理
- L3.2.3 MetaGPT的应用场景 - L3.3 ChatGLM
- L3.3.1 ChatGLM的特点
- L3.3.2 ChatGLM的开发环境
- L3.3.3 ChatGLM的使用示例 - L3.4 LLAMA
- L3.4.1 LLAMA的特点
- L3.4.2 LLAMA的开发环境
- L3.4.3 LLAMA的使用示例 - L3.5 其他大模型介绍
- L3.1 Agent模型框架
阶段4:AI大模型私有化部署
- 目标:掌握多种AI大模型的私有化部署,包括多模态和特定领域模型。
- 内容:
- L4.1 模型私有化部署概述
- L4.2 模型私有化部署的关键技术
- L4.3 模型私有化部署的实施步骤
- L4.4 模型私有化部署的应用场景
学习计划:
- 阶段1:1-2个月,建立AI大模型的基础知识体系。
- 阶段2:2-3个月,专注于API应用开发能力的提升。
- 阶段3:3-4个月,深入实践AI大模型的应用架构和私有化部署。
- 阶段4:4-5个月,专注于高级模型的应用和部署。
这份完整版的大模型 LLM 学习资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费
】
😝有需要的小伙伴,可以Vx扫描下方二维码免费领取🆓
更多推荐
所有评论(0)