
文章来源: 更新时间:2024-10-20 08:40:08
这事坑就坑在: 运维怀疑买到了垃圾机器; 系统怀疑调度/框架出了问题; 算法怀疑模型见了鬼; 都没想到是内鬼在搞鬼; 因为大模型训练本来就有很多因素影响,千卡万卡集群问题只会更多;很多人都在说权限管理,但目前看其中一个漏洞是开源huggingface的load_ckpt接口,load_ckpt是用于加载模型的checkpoint,反序列化时使用了pickle.load(),而 pickle 模块反序列化时会执行数据中任意代码。
所以如果有人在肠丑别肠办辫辞颈苍迟中加入一段…。
地址:广东省广州市天河区88号电话:400-123-4657传真:+86-123-4567
版权所有: