
IT之家6月18日讯息,“昇腾AI配置者”公众号6月17日晓谕,昇腾0Day支握GLM-5.2,为编程与长程任务提供全面推理优化。
据官方先容,当今昇腾A3系列居品仍是支握GLM5.2的单双机以及大EP推理部署。针对GLM5.2模子的结构特质,昇腾围绕以下几个要道时代开展了高效推理优化:
金佰利国际娱乐官网入口MOE大交融算子:将巨匠路由、加权计较与收尾归约交融为长入算子,摒除中间张量冗余读写,显耀进步计较效果。
通讯与计较交融:通过将AllReduce优化为ReduceScatter与AllGather通讯原语,并与矩阵计较变成紧耦合活水线,结束通讯延伸的有用荫藏。
小心力前管束与多Token预测优化:摄取小心力前管束交融算子,臆测多Token预测(MTP)机制的加快,进步单步生生效果。
高并发调治与预填充延伸机制:在高并发搀杂负载场景下引入预填充延伸调治,平滑计较峰值,裁减Prefill阶段对Decode阶段的资源霸占。
智能缓存与索引优化:臆测IndexCache时代缓存高频巨匠旅途与静态路由表,并摄取ChunkedPrefill、稀罕索引检索等规律,银河游戏优化长高下文推感性能。
PD隔离与PrefixCache:通过Prefill与Decode阶段隔离及前缀缓存时代,压缩解码时延抖动,进步在线办事费解踏实性。
IT之家小心到,智谱6月17日晓谕上线并开源GLM-5.2。在宇宙百万用户参与盲测的前端配置评估系统CodeArena上,GLM-5.2得到宇宙可用模子第一的发扬。

官方暗示,GLM-5.2专为长程任务智商而生,特色包括:
Solid1M高下文:踏实支握长程任务,多个长程任务基准标明GLM-5.2的发扬介于ClaudeOpus4.7与4.8之间,是名次最高的开源模子

更强体感,更实用的Coding智商:在主流编程基准上,GLM-5.2保握开源SOTA,与ClaudeOpus4.8处于可比区间

极致Infra优化,Day0启动在国产算力平台:在1M高下文长度下,将单元token的FLOPs裁减至2.9倍;已在Day0完成与华为昇腾、平头哥、摩尔线程、寒武纪、昆仑芯、沐曦、海光、壁仞等国产算力平台的推理适配;展望下半年昇腾950超节点上市后,也将成为GLM-5.2执意的算力底座
银河游戏在线娱乐中国官网

备案号: