AI训练降本新突破!Hermes团队推出TST训练法,算力成本直砍六成
日期:2026-05-19 17:53:14 / 人气:13

AI行业共识已然转变:模型升级不再无限堆砌算力,如何压低训练成本、提升算力利用率成为核心赛道。凭借Hermes Agent爆火的Nous Research团队,公布全新训练技术**Token叠加训练(TST)**,无需改动模型架构,仅优化预训练学习逻辑,实现大幅度降本增效。百亿参数MoE模型实测数据亮眼,同等训练效果下,TST仅消耗原本38.7%的GPU算力时长,训练提速2.5倍,为行业提供继DeepSeek工程优化之外的全新提效路径。
摒弃复杂架构改造,TST采用「先粗读、后精读」两段式极简训练逻辑。传统大模型训练普遍采用逐词预测模式,全程精细化学习文本,算力消耗巨大。TST将训练划分为叠加阶段与恢复阶段:前期把连续多个token打包合并为单个叠加词元,压缩序列长度,让模型粗粒度快速学习语义分布、词汇关联;训练中后期切回标准逐token自回归训练,补齐细节精度与生成能力。该方法属于**即插即用优化方案**,不改动优化器、分词器、模型结构,复杂度全部留在训练端,推理交付依旧是常规大模型,适配性极强。
底层逻辑实现算力节流,百亿级模型收益最大化。TST核心原理是提升单位计算量的数据吞吐量,粗粒度打包后,相同浮点计算量可处理数倍文本,大幅压缩无效算力损耗。官方多尺度实验验证,270M至10B不同参数模型均实现正向收益,其中10B-A1B混合专家模型效果最优:TST以更少算力消耗,完成2倍token训练量,同时降低损失值,MMLU、常识推理等零样本评测全面提升。对比行业主流优化方案,DeepSeek依靠架构重构硬压榨算力,而TST轻量化修改学习路径,门槛更低、落地更便捷。
行业降本逻辑迭代,中小AI团队迎来发展红利。当前AI降本分化为两大路线:稀疏架构、工程优化属于重资产改造,门槛极高;而TST优化学习顺序、改变训练粒度,用低成本方式缩短实验周期、降低试错成本。该技术存在明确局限性,极度依赖高质量训练数据,数据匮乏场景下效果受限。业内分析表示,TST开辟了全新优化思路,证明优化模型**学习方式**比盲目堆叠算力更重要,在算力稀缺的行业环境下,或将加速中小垂直模型迭代,重塑AI行业训练成本格局。
作者:亿兆体育
新闻资讯 News
- 全网刷屏的清醒!《给阿嬷的情书...05-22
- 53岁陈慧琳罕见家庭照曝光!两儿...05-22
- 反潮流生活!导演诺兰自曝从未用...05-22
- 《雨霖铃》收视网播双双崩盘!过...05-22
案例展示 Case
- 导弹万圣节 奇妙欢乐送11-06
- LOL 无畏竞巅峰11-06
- 邀请好友 人脉即钱脉11-06
- 每日任务11-06
- 豪门逐鹿11-06
- 亿币付钱包11-06

