赵阳
HIT · SCIR · Research Center for Social Computing and Interactive Robotics

赵阳

哈尔滨工业大学 SCIR 博士生 · Data-centric LLM Post-training

Less is More

我是哈尔滨工业大学 SCIR(Research Center for Social Computing and Interactive Robotics)博士生,导师为刘挺教授、丁效教授。 我的研究聚焦于大语言模型全阶段训练中的数据动态优化问题,关注如何以更少训练数据实现更优的模型性能、训练效率与泛化能力。 相关成果以第一作者发表于 NeurIPS、ACL 等 CCF-A 会议 6 篇,并参与获得 ACL Outstanding Paper 的研究工作。

Affiliation
SCIR, Harbin Institute of Technology
Research
Dynamic Data Optimization across the Full LLM Training Pipeline

关于我

About

我目前在哈尔滨工业大学社会计算与信息检索研究中心攻读博士,长期从事大语言模型全阶段训练中的数据动态优化研究。 我的核心关注点是:如何在预训练、监督微调、强化学习与奖励优化等不同阶段,识别更具训练价值的数据,以更少的数据实现更高效的能力提升、更稳定的优化过程,以及更强的泛化表现。

研究内容主要涵盖预训练数据归因、指令调优数据选择、强化学习阶段的数据优化、奖励优化中的动态权衡,以及模型快速泛化与知识能力演化机制分析。

Dynamic Data Optimization Data Selection for LLMs Efficient Post-training Instruction Tuning RL Data Optimization Generalization Analysis

研究关键词

Pretraining Data Attribution Instruction Tuning Data Selection RLHF / RL Data Optimization Reward Optimization Generalization Knowledge Evolution

学术概览

Research snapshot

研究主线

围绕大语言模型全阶段训练中的数据动态优化问题展开研究,关注如何在更低数据成本下实现更优的性能、泛化能力与训练效率。

代表成果

以第一作者在 NeurIPS、ACL 等会议发表多篇论文,系统覆盖预训练、SFT、RL 与奖励优化等阶段的数据问题。

教育经历

Education
哈尔滨工业大学
2022 - 至今
计算学部 · 硕博连读
  • 计算机科学与技术博士研究生
  • 导师:刘挺教授、丁效教授
吉林大学
2018 - 2022
本科阶段
  • 软件学院 · 软件工程专业
  • 商学与管理学院 · 工商管理双学位

代表性论文

Selected works
我的博士课题聚焦于 LLM 全阶段训练中的数据动态优化:研究如何在预训练、监督微调、强化学习与奖励优化等不同阶段, 动态识别更具训练价值的数据与目标权衡机制,从而以更少的数据实现更优的性能、泛化能力与训练效率。 下列六篇一作论文分别从预训练数据归因、SFT 数据选择、快速泛化机制、RL 数据优化、阶段间数据分工以及奖励目标动态权衡等角度, 共同构成了我在这一博士课题上的系统性研究。

一作论文

按时间倒序排列的一作代表性论文
ACL 2026 Main · First Author

MAESTRO: Meta-learning Adaptive Estimation of Scalarization Trade-offs for Reward Optimization

Yang Zhao, Hepeng Wang, Xiao Ding, Yangou Ouyang, Bibo Cai, Kai Xiong, Jinglong Gao, Zhouhao Sun, Li Du, Bing Qin, Ting Liu
ACL 2026 Main Conference

问题:奖励优化中多目标之间通常存在复杂权衡,固定标量化策略难以适应不同训练阶段与样本特性。

方法:提出基于元学习的自适应标量化估计方法,动态学习不同奖励目标之间的权衡系数。

价值:提升了奖励优化的适应性与稳定性,为高质量后训练提供了更灵活的目标协调机制。

ACL 2026 Main · First Author

Consolidation or Adaptation? PRISM: Disentangling SFT and RL Data via Gradient Concentration

Yang Zhao, Yangou Ouyang, Xiao Ding, Hepeng Wang, Bibo Cai, Kai Xiong, Jinglong Gao, Zhouhao Sun, Li Du, Bing Qin, Ting Liu
ACL 2026 Main Conference

问题:SFT 与 RL 阶段的数据作用往往交织在一起,缺乏对二者训练功能差异的系统理解。

方法:基于梯度集中性分析,刻画不同数据在后训练不同阶段中的功能分工与适配关系。

价值:有助于更精细地理解和设计后训练数据配比,为阶段化数据选择提供方法支持。

NeurIPS 2025 · First Author

UFO-RL: Uncertainty-Focused Optimization for Efficient Reinforcement Learning Data Selection

Yang Zhao, Kai Xiong, Xiao Ding, Li Du, Yangou Ouyang, Zhouhao Sun, Jiannan Guan, Wenbin Zhang, Bin Liu, Dong Hu, Bing Qin, Ting Liu
NeurIPS 2025

问题:强化学习阶段训练代价高昂,现有方法往往对所有样本一视同仁,导致数据利用效率不足。

方法:提出不确定性感知的数据选择框架,从样本学习价值出发动态筛选更关键的 RL 训练数据。

价值:在更少训练数据下实现更优或可比的强化学习效果,为高成本后训练提供了更高效的数据优化方案。

ACL 2025 Main · First Author

Beyond similarity: A gradient-based graph method for instruction tuning data selection

Yang Zhao, Li Du, Xiao Ding, Yangou Ouyang, Hepeng Wang, Kai Xiong, Jinglong Gao, Zhouhao Sun, Dongliang Xu, Qing Yang, Dongchen Li, Bing Qin, Ting Liu
ACL 2025 Main Conference

问题:现有指令调优数据选择方法大多依赖语义相似度,难以准确反映样本对模型更新的真实贡献。

方法:构建基于梯度关系的图方法,从优化视角建模样本间交互,选择更具训练价值的数据子集。

价值:突破了基于表面相似性的筛选范式,在减少训练数据规模的同时有效提升指令调优性能。

ACL 2025 Main · First Author

Analyzing the Rapid Generalization of SFT via the Perspective of Attention Head Activation Patterns

Yang Zhao, Li Du, Xiao Ding, Kai Xiong, Ting Liu, Bing Qin
ACL 2025 Main Conference

问题:监督微调为何能够在有限数据下快速带来广泛泛化,相关机制仍缺乏清晰解释。

方法:从注意力头激活模式出发,分析 SFT 过程中模型内部表征变化与能力迁移规律。

价值:为理解大模型快速泛化现象提供了机制层面的证据,也为后续数据选择与训练策略设计提供了分析依据。

ACL 2024 Findings · First Author

Deciphering the Impact of Pretraining Data on Large Language Models through Machine Unlearning

Yang Zhao, Li Du, Xiao Ding, Kai Xiong, Zhouhao Sun, Shi Jun, Ting Liu, Bing Qin
ACL 2024 Findings

问题:预训练数据如何影响大语言模型能力形成,长期以来缺乏可操作的直接分析路径。

方法:借助机器遗忘框架,从“移除数据后的能力变化”角度分析不同预训练数据的实际影响。

价值:为预训练数据归因与价值评估提供了新的研究路径,也为高价值数据筛选提供了理论与方法基础。

非一作论文

技术报告

实习经历

Research internships
字节跳动 · Seed Horizon
2025.11 - 至今
LLM 后训练研究实习生 · Mentor: 秦禹嘉
  • 深度参与 Seed 1.8 与 Seed 2.0 相关研究与训练工作。
  • 研究聚焦于大模型后训练与基础能力提升。
度小满金融
2024.11 - 2025.11
研究实习 · 金融大模型可解释性与训练
  • 围绕金融大模型的可解释性分析与训练优化开展研究与实验。
  • 参与面向金融场景的大模型能力提升与训练方案探索。

研究专长

Research expertise

研究专长

Dynamic Data Optimization for LLMs Pretraining Data Attribution Efficient Instruction Tuning Reinforcement Learning Data Optimization Reward Optimization and Scalarization Mechanistic Analysis of Generalization

学术标签

Less is More Data-centric LLM Training Full-pipeline Optimization Instruction Data Curation RLHF Data Efficiency Generalization and Knowledge Evolution