不花钱，让「情圣」ChatGPT教你怎么追马斯克！( 五 ) _人工智能

文章插图

RLHF可以通过迭代更新奖励模型和策略，从这一点继续。
随着RL策略的更新，用户可以继续将这些输出与模型的早期版本进行排名。
这个过程中，就引入了策略和奖励模型演变的复杂动态，这个研究非常复杂，非常开放。
参考资料：
https://www.4gamers.com.tw/news/detail/56185/chatgpt-can-have-a-good-conversation-with-you-among-acg-and-trpg-mostly
https://www.businessinsider.com/history-of-openai-company-chatgpt-elon-musk-founded-2022-12#musk-has-continued-to-take-issue-with-openai-in-recent-years-7