为什么说大模型训练很难？聊聊预训练的一些经验

AI小白熊

882人浏览 · 2025-01-06 10:41:10

AI小白熊 · 2025-01-06 10:41:10 发布

自从Bert网络模型产数量超过3亿规模，当时候只是觉得性能好，没想到GPT系列出来后，GPT-3直接用170B规模的参数量模型精度碾压竞品。

接着就是新一轮的竞争了，后面的事情就有点可怕了，Google推出万亿稀疏switch transformer，huawei推出2000亿稠密鹏程盘古大模型，微软推出Turing-NLG有1000亿参数，英伟达推出MegatronLM系列。

大家都说大模型难，大模型训练除了集群调度麻烦，还难在哪里吗？

之前做过一部分预训练的工作，训的模型是7B，13B大小，分享一下个人的感受。

首先是训练方面，这两个量级的模型训练起来其实和小模型差不多，参数设置上有两个地方需要注意：一个是学习率需要略小，在e-5这个量级就可以，其次是global_batch需要比较大，一般在2-4M tokens，这样训练起来会比较稳定。

对于7B这个量级的模型，一般stage=2，tp=1，zero1=8，因为如果单卡能放下一份模型的参数和梯度就不需要用tp，不然会很慢，这样相当于一张80G卡存一份完整模型参数和部分优化器转态，模型参数占7 * 2 =14G，而优化器状态则分布在单节点的8张GPU内，平均每张卡占7 * (4+4+4+2)/8 =13G，这个就相当于在单节点内做8路数据并行，在seq_len=2048的情况下，单张卡的micro_batch大概可以到8左右。

如果不进行梯度累积，global_batch=2M的情况下至少需要128张卡（ 8 * 2048 * 128），24h大概能训30-40B tokens，1T tokens大概训一个月左右（凭印象写的，如果有错误欢迎指正），设置好后剩下的就交给时间了，每天上去看一下loss，如果没有机器故障，通常是可以一把从头训到尾的，不需要中间再去调各种参数。

而大到千亿这个级别的模型，难度就上来了，会出现一些数值计算/收敛稳定性等各方面的问题，除此之外，机器数量一多起来后故障率就非常高了，感兴趣可以解了一下GLM 130B训练的分享报告，或者Mate训OPT的logbook ，如Meta这种大厂调度千卡的故障也是非常多的，这是没法避免的。

我个人感觉在模型训练之外其实更重要的是数据，在同一scale下，数据质量直接决定了模型性能的上限。模型大家可能会开源，但数据，特别是有价值的数据一般是不会轻易开源的。英文语料数量很大，可以通过严格筛选来得到高质量的diversity语料，而且也已经有很多开源的现成可用的语料数据，比如c4，Pipe，RedPajam，refinedweb。中文早先开源的不多，现在大家也已经开始卷数据了，我了解的一些开源数据有：

• WuDaoCorpus[1]，200G中文
• TigerBot[2]，100G中英
• SkyPile-150B[3]，150B tokens
• WanJuan[4] ，文本1TGB，应该是目前开源最大的一个了
• CCI[5] ，104GB文本

但总体规模上比英文还是小很多，而且中文语料的质量也一言难尽，广告，AIGC内容，错误的内容，违反安全的内容等各种乱七八糟的数据也很多，所以数据这方面不是一个人两个人就能做的，得需要一个专门的数据团队来专项负责。

最后一点是，训大模型的试错成本非常高，时间、机器、人力搭进去了，但谁也没法保证训出来的模型效果就一定好，因为数据质量比较难以客观量化，所以炼丹前也很难判断这批数据训出来的模型效果到底如何，风险比较大，只能一边训一般观察模型的状态，如果没有达到预期，只能通过持续添加更高质量的数据来调整。

并且按照现在开源模型与日俱增的训练数据量来看，后续开源的基础模型估计都得2T tokens起步了，否则效果难以比肩（按照scaling law来看），开源出来也没太大意义，因为大家不会去用。不过后面开源的模型还是有一定的数据优势的，因为可以用更新的数据来训，而benchmark相对来说是旧的，所以刷分可能相对更容易一些，分不高没法做pr，但分高并不代表模型的水平。

所以综合来看，训大模型的难不是单点技术上的难，而是系统性的难，需要数据，炼丹师，框架，硬件等几方面人力间的紧密配合，并且围绕着炼丹师的需求来开展工作。这也是为什么创业公司往往更容易做出成果，因为大家目标比较专注一致，执行力就会比较强，而大公司由于各种原因就非常容易互相扯皮。

零基础如何学习AI大模型

领取方式在文末

为什么要学习大模型？

学习大模型课程的重要性在于它能够极大地促进个人在人工智能领域的专业发展。大模型技术，如自然语言处理和图像识别，正在推动着人工智能的新发展阶段。通过学习大模型课程，可以掌握设计和实现基于大模型的应用系统所需的基本原理和技术，从而提升自己在数据处理、分析和决策制定方面的能力。此外，大模型技术在多个行业中的应用日益增加，掌握这一技术将有助于提高就业竞争力，并为未来的创新创业提供坚实的基础。

大模型典型应用场景

①AI+教育：智能教学助手和自动评分系统使个性化教育成为可能。通过AI分析学生的学习数据，提供量身定制的学习方案，提高学习效果。
②AI+医疗：智能诊断系统和个性化医疗方案让医疗服务更加精准高效。AI可以分析医学影像，辅助医生进行早期诊断，同时根据患者数据制定个性化治疗方案。
③AI+金融：智能投顾和风险管理系统帮助投资者做出更明智的决策，并实时监控金融市场，识别潜在风险。
④AI+制造：智能制造和自动化工厂提高了生产效率和质量。通过AI技术，工厂可以实现设备预测性维护，减少停机时间。
…
这些案例表明，学习大模型课程不仅能够提升个人技能，还能为企业带来实际效益，推动行业创新发展。

学习资料领取

如果你对大模型感兴趣，可以看看我整合并且整理成了一份AI大模型资料包，需要的小伙伴文末免费领取哦，无偿分享！！！
vx扫描下方二维码即可
加上后会一个个给大家发
在这里插入图片描述

部分资料展示

一、 AI大模型学习路线图

整个学习分为7个阶段
在这里插入图片描述
请添加图片描述

二、AI大模型实战案例

涵盖AI大模型的理论研究、技术实现、行业应用等多个方面。无论您是科研人员、工程师，还是对AI大模型感兴趣的爱好者，皆可用。
在这里插入图片描述

在这里插入图片描述

三、视频和书籍PDF合集

从入门到进阶这里都有，跟着老师学习事半功倍。
在这里插入图片描述

在这里插入图片描述

四、LLM面试题

在这里插入图片描述

五、AI产品经理面试题

在这里插入图片描述

😝朋友们如果有需要的话，可以V扫描下方二维码联系领取~
在这里插入图片描述

👉[CSDN大礼包🎁：全网最全《LLM大模型入门+进阶学习资源包》免费分享（安全链接，放心点击）]👈

HarmonyOS开发者社区

讨论HarmonyOS开发技术，专注于API与组件、DevEco Studio、测试、元服务和应用上架分发等。

更多推荐

为什么 Redux 思想可能不再适合 HarmonyOS PC？

HarmonyOS开发者社区

动图魔方技术拆解 14：ArkUI 大型单页的 Tab 路由、状态拆分与空状态设计

HarmonyOS开发者社区

claude目前具备以下技能：

※ recap: 你问我有哪些技能，我列出planner、architect、tdd-guide、code-reviewer、security-reviewer、build-error-resolver等11个agent，以及RTK优化命令。│ security-reviewer│ 安全分析│。│ harmonyos-app-resolver │ HarmonyOS 应用开发 │。│ build-