Scaling laws for reward model overoptimization 来自 OpenAI News · 2022-10-19 精选 LLM训练 模型对齐 模型评测 RLHF 在 OpenAI News 阅读全文 →