
文章来源: 更新时间:2024-10-20 00:30:09
这事坑就坑在: 运维怀疑买到了垃圾机器; 系统怀疑调度/框架出了问题; 算法怀疑模型见了鬼; 都没想到是内鬼在搞鬼; 因为大模型训练本来就有很多因素影响,千卡万卡集群问题只会更多;我看很多人都说权限管理,但这和权限管理真没什么关系,因为目前看是钻的开源huggingface的load_ckpt接口漏洞,load ckpt是用于加载模型的checkpoint,反序列化时使用了pickle.load(),而 pickle 模块反序列化时会执行数据中任意代码。
所以如…。
地址:广东省广州市天河区88号电话:400-123-4657传真:+86-123-4567
版权所有: