
文章来源: 更新时间:2025-03-10 20:50:06
真正的满血版非常耗算力,所以许多第三方部署的时候为了提高吞吐量,做了许多配置上的优化,只保留了670B参数量这个大家都懂的指标,运行更快是自己的牛,效果不好那是友商的事,对不对? 1是精度,从fp16,fp8降到int8,int4,甚至int2,速度那是翻跟斗上去 2是长度,大家都是尝鲜,限制下上下文长度,推理的长度和输出长度,速度也也是翻跟斗上去 3搜索量控制,这个模型之外自己控制的,多多少少自己说了算 所以,就像炸鸡腿,…。
地址:广东省广州市天河区88号电话:400-123-4657传真:+86-123-4567
版权所有: