Rethinking Generalization in Reasoning SFT: A Conditional Analysis on Optimization, Data, and Model Capability

Published in arXiv preprint, 2026

We analyze reasoning supervised fine-tuning under different optimization, data, and model-capability conditions. The study finds that cross-domain generalization is conditional rather than absent, and that reasoning gains can come with safety tradeoffs.

Recommended citation: Qihan Ren, Peng Wang, Ruikun Cai, Shuai Shao, Dadi Guo, Yuejin Xie, Yafu Li, Quanshi Zhang, Xia Hu, Jing Shao, Dongrui Liu. (2026). "Rethinking Generalization in Reasoning SFT: A Conditional Analysis on Optimization, Data, and Model Capability." arXiv preprint arXiv:2604.06628. https://arxiv.org/abs/2604.06628

Share on

Twitter Facebook LinkedIn