DeepSeek梁文锋团队提出mHC新架构 攻克大模型训练稳定性难题

DeepSeek近日发布重磅研究论文,提出流形约束超连接(mHC)新架构,创始人梁文锋现身作者团队,为基础模型架构演进开辟新路径。该架构直指传统超连接技术的核心痛点——破坏恒等映射属性,导致大规模模型训练过程不稳定。

mHC架构通过将残差连接空间投影至特定流形,成功恢复恒等映射属性,从根源解决训练不稳定问题。同时,方案结合基础设施优化,在显著降低内存开销的基础上,大幅提升模型可扩展性与核心性能,为大模型规模化训练与应用提供了更可靠的技术支撑。