提供灵活的并行策略配置

rifat28dddd · Post by **rifat28dddd** » Wed Feb 19, 2025 8:28 am

已收获近4万GitHub Star的Colossal-AI，发布开源大模型后训练工具箱，包含：

DeepSeek V3/ R1满血671B LoRA低成本SFT微调

完整的强化学习工具链 PPO，GRPO，DPO，SimPO等

无缝适配DeepSeek系列蒸馏模型在内的HuggingFace开源模型

兼容支持英伟达GPU、华为昇印度尼西亚 whatsapp 号码列表腾NPU等多种硬件

支持混合精度训练，gradient checkpoint等训练加速降低成本

灵活的训练配置接口，支持自定义奖励函数、损失函数等

接口，包括数据并行、模型并行、专家并行、ZeRO和Offload等，以适应不同硬件规模

开源地址：

01 低成本监督微调满血版DeepSeek V3/R1 671B
DeepSeek V3/R1满血版参数高达6710亿，如何低成本进行低成本微调呢？仅需以下几个步骤，即可快速完成。

数据集准备
该脚本接收JSONL格式的文件作为输入数据集，例如：

数据集的每一行应为一个聊天对话列表。例如：