模型优化

约 236 个字预计阅读时间 1 分钟

模型压缩¶

量化 (INT8/GPTQ/AWQ)、

将模型的参数（如权重和激活值）从高精度转换为低精度的过程

llama.cpp 转gguf

通过去除神经网络中不重要的连接或神经元，减少模型的参数量，从而在不影响模型性能的情况下，提高模型的计算效率和响应速度。

剪枝、推理加速 (vllm/TensorRT-LLM)

问答 -> 用户反馈 SFT

包 peft

合并模型

将大型复杂模型（教师模型）的知识迁移到小型简单模型（学生模型）中。

学生模型在学习过程中模仿教师模型的输出或中间表示，从而在保持较高性能的同时，具有更快的推理速度，适合在资源受限的环境下快速响应用户请求。