
文章来源: 更新时间:2024-11-22 11:50:09
还有很多问题没有解决,比如: 什么是理想的奖励分配和探索利用?怎么做? Weak to strong的泛化问题:如何在有噪监督的情况下,尽可能好的利用原始模型的泛化性,忽略噪声 如何增强现在ppo的样本效率?可以用off-policy样本吗? 如何训练模型可靠使用工具?可靠的执行任务?需要怎样的奖励? 先列这些,欢迎补充和讨论,后续会更新。
。
地址:广东省广州市天河区88号电话:400-123-4657传真:+86-123-4567
版权所有: