- 计算机科学与技术博士研究生
- 导师:刘挺教授、丁效教授
关于我
我目前在哈尔滨工业大学社会计算与信息检索研究中心攻读博士,长期从事大语言模型全阶段训练中的数据动态优化研究。 我的核心关注点是:如何在预训练、监督微调、强化学习与奖励优化等不同阶段,识别更具训练价值的数据,以更少的数据实现更高效的能力提升、更稳定的优化过程,以及更强的泛化表现。
研究内容主要涵盖预训练数据归因、指令调优数据选择、强化学习阶段的数据优化、奖励优化中的动态权衡,以及模型快速泛化与知识能力演化机制分析。
研究关键词
学术概览
研究主线
围绕大语言模型全阶段训练中的数据动态优化问题展开研究,关注如何在更低数据成本下实现更优的性能、泛化能力与训练效率。
代表成果
以第一作者在 NeurIPS、ACL 等会议发表多篇论文,系统覆盖预训练、SFT、RL 与奖励优化等阶段的数据问题。
教育经历
- 软件学院 · 软件工程专业
- 商学与管理学院 · 工商管理双学位
代表性论文
一作论文
MAESTRO: Meta-learning Adaptive Estimation of Scalarization Trade-offs for Reward Optimization
问题:奖励优化中多目标之间通常存在复杂权衡,固定标量化策略难以适应不同训练阶段与样本特性。
方法:提出基于元学习的自适应标量化估计方法,动态学习不同奖励目标之间的权衡系数。
价值:提升了奖励优化的适应性与稳定性,为高质量后训练提供了更灵活的目标协调机制。
Consolidation or Adaptation? PRISM: Disentangling SFT and RL Data via Gradient Concentration
问题:SFT 与 RL 阶段的数据作用往往交织在一起,缺乏对二者训练功能差异的系统理解。
方法:基于梯度集中性分析,刻画不同数据在后训练不同阶段中的功能分工与适配关系。
价值:有助于更精细地理解和设计后训练数据配比,为阶段化数据选择提供方法支持。
UFO-RL: Uncertainty-Focused Optimization for Efficient Reinforcement Learning Data Selection
问题:强化学习阶段训练代价高昂,现有方法往往对所有样本一视同仁,导致数据利用效率不足。
方法:提出不确定性感知的数据选择框架,从样本学习价值出发动态筛选更关键的 RL 训练数据。
价值:在更少训练数据下实现更优或可比的强化学习效果,为高成本后训练提供了更高效的数据优化方案。
Beyond similarity: A gradient-based graph method for instruction tuning data selection
问题:现有指令调优数据选择方法大多依赖语义相似度,难以准确反映样本对模型更新的真实贡献。
方法:构建基于梯度关系的图方法,从优化视角建模样本间交互,选择更具训练价值的数据子集。
价值:突破了基于表面相似性的筛选范式,在减少训练数据规模的同时有效提升指令调优性能。
Analyzing the Rapid Generalization of SFT via the Perspective of Attention Head Activation Patterns
问题:监督微调为何能够在有限数据下快速带来广泛泛化,相关机制仍缺乏清晰解释。
方法:从注意力头激活模式出发,分析 SFT 过程中模型内部表征变化与能力迁移规律。
价值:为理解大模型快速泛化现象提供了机制层面的证据,也为后续数据选择与训练策略设计提供了分析依据。
Deciphering the Impact of Pretraining Data on Large Language Models through Machine Unlearning
问题:预训练数据如何影响大语言模型能力形成,长期以来缺乏可操作的直接分析路径。
方法:借助机器遗忘框架,从“移除数据后的能力变化”角度分析不同预训练数据的实际影响。
价值:为预训练数据归因与价值评估提供了新的研究路径,也为高价值数据筛选提供了理论与方法基础。
非一作论文
Causal-Guided Active Learning for Debiasing Large Language Models
Diagnosing and Remedying Knowledge Deficiencies in LLMs via Label-free Curricular Meaningful Learning
Large Language Models Are Still Misled by Simple Bias Ensembles
Think Straight or Think Again? Continual Joint Learning of Deduction, Abduction and Induction
Information Gain-Guided Causal Intervention for Autonomous Debiasing Large Language Models
技术报告
Seed2.0 Model Card: Towards Intelligence Frontier for Real-World Complexity
Seed1.8 Model Card: Towards Generalized Real-World Agency
实习经历
- 深度参与 Seed 1.8 与 Seed 2.0 相关研究与训练工作。
- 研究聚焦于大模型后训练与基础能力提升。
- 围绕金融大模型的可解释性分析与训练优化开展研究与实验。
- 参与面向金融场景的大模型能力提升与训练方案探索。