Hualin Luan Cloud Native · Quant Trading · AI Engineering

Topic

SFT 数据工程

高质量监督微调数据的系统性构建方法,涵盖数据清洗、标注、合成与质量评估。

SFT(Supervised Fine-Tuning)数据工程关注如何为特定任务和场景构建高质量的监督微调数据集。

核心挑战

  • 数据质量 vs 数量: 少量高质量数据往往比大量低质量数据更有效
  • 领域适配: 如何让模型理解特定领域的术语和逻辑
  • 多样性保障: 避免数据分布偏差导致的模型偏见
  • 标注成本控制: 在预算约束下获取最优的标注质量

工程实践

本专题分享在实际项目中积累的数据工程经验,包括自动化数据清洗管道、质量评估指标设计、以及人机协同的标注工作流。

Index

知识索引

专题内的核心子主题与内容方向。

指令数据集构建数据质量评估合成数据生成领域数据增强数据标注工作流

Reading paths

推荐阅读路径

按专题和顺序进入内容,快速建立整体理解。

推荐路径和系列已经覆盖该专题的主要文章。

Resources

延伸资源

专题相关的外部资源与后续阅读入口。