Curator

Learning to summarize with human feedback

来自 OpenAI News · 2020-09-04 精选

LLM微调模型对齐 RLHF

We’ve applied reinforcement learning from human feedback to train language models that are better at summarization.