Skip to content

预训练与微调与SFT / RLHF

约 184 个字 预计阅读时间 1 分钟

Text Only
① 预训练(Pretrain)
② 指令微调(SFT)
③ 对齐训练(RLHF / RLAIF)

模型微调

微调是 迁移学习(Transfer Learning)的一种实践形式

LoRA: 旨在在不修改预训练模型主体参数的情况下,利用低秩矩阵对模型进行适应性调整,从而大幅减少训练所需的参数量和计算资源

低秩矩阵

指令微调: 数据集通常包含了丰富的指令样本以及对应的期望输出. 通过训练,模型得以学习不同指令与适当行动之间的**映射关系**,即使未曾见过完全相同的指令也能通过泛化能力来处理类似的新指令

LoRA/PEFT

SFT、LoRA、QLoRA、P-Tuning 、PEFT