
文章来源: 更新时间:2024-10-20 17:30:09
这事坑就坑在: 运维怀疑买到了垃圾机器; 系统怀疑调度/框架出了问题; 算法怀疑模型见了鬼; 都没想到是内鬼在搞鬼; 因为大模型训练本来就有很多因素影响,千卡万卡集群问题只会更多,loss不下降、训练性能低、机器老出故障、大模型幻觉,本来就是日常会遇到的,之前在推特看一些硅谷llm创业分享、meta之前失败的大模型经验分享,也是这些问题,想干扰炼丹,方法可太多了。
很多人都在说权限管理,但目前看其中一个漏洞是开源…。
地址:广东省广州市天河区88号电话:400-123-4657传真:+86-123-4567
版权所有: