Curator

RL²: Fast reinforcement learning via slow reinforcement learning

来自 OpenAI News · 2016-11-09

LLM训练 LLM微调模型对齐 RLHF

在 OpenAI News 阅读全文 →

Curator — AI 大模型技术前沿