AI训练降本新突破！Hermes团队推出TST训练法，算力成本直砍六成

日期：2026-05-19 17:53:14 / 人气：48

AI行业共识已然转变：模型升级不再无限堆砌算力，如何压低训练成本、提升算力利用率成为核心赛道。凭借Hermes Agent爆火的Nous Research团队，公布全新训练技术**Token叠加训练（TST）**，无需改动模型架构，仅优化预训练学习逻辑，实现大幅度降本增效。百亿参数MoE模型实测数据亮眼，同等训练效果下，TST仅消耗原本38.7%的GPU算力时长，训练提速2.5倍，为行业提供继DeepSeek工程优化之外的全新提效路径。
摒弃复杂架构改造，TST采用「先粗读、后精读」两段式极简训练逻辑。传统大模型训练普遍采用逐词预测模式，全程精细化学习文本，算力消耗巨大。TST将训练划分为叠加阶段与恢复阶段：前期把连续多个token打包合并为单个叠加词元，压缩序列长度，让模型粗粒度快速学习语义分布、词汇关联；训练中后期切回标准逐token自回归训练，补齐细节精度与生成能力。该方法属于**即插即用优化方案**，不改动优化器、分词器、模型结构，复杂度全部留在训练端，推理交付依旧是常规大模型，适配性极强。
底层逻辑实现算力节流，百亿级模型收益最大化。TST核心原理是提升单位计算量的数据吞吐量，粗粒度打包后，相同浮点计算量可处理数倍文本，大幅压缩无效算力损耗。官方多尺度实验验证，270M至10B不同参数模型均实现正向收益，其中10B-A1B混合专家模型效果最优：TST以更少算力消耗，完成2倍token训练量，同时降低损失值，MMLU、常识推理等零样本评测全面提升。对比行业主流优化方案，DeepSeek依靠架构重构硬压榨算力，而TST轻量化修改学习路径，门槛更低、落地更便捷。
行业降本逻辑迭代，中小AI团队迎来发展红利。当前AI降本分化为两大路线：稀疏架构、工程优化属于重资产改造，门槛极高；而TST优化学习顺序、改变训练粒度，用低成本方式缩短实验周期、降低试错成本。该技术存在明确局限性，极度依赖高质量训练数据，数据匮乏场景下效果受限。业内分析表示，TST开辟了全新优化思路，证明优化模型**学习方式**比盲目堆叠算力更重要，在算力稀缺的行业环境下，或将加速中小垂直模型迭代，重塑AI行业训练成本格局。

作者：亿兆体育

AI训练降本新突破！Hermes团队推出TST训练法，算力成本直砍六成

新闻资讯 News

案例展示 Case

现在致电 OR 查看更多联系方式 →

现在致电 OR 查看更多联系方式 →