2024-06-01から1ヶ月間の記事一覧

【LLM論文を読む】知識直接選好最適化（KDPO）によるLLMの知識編集

「直接選好最適化（DPO）」はいわゆるアラインメントの目的で使われているLLMの学習手法です。同一の指示に対する有益な回答例と有害な回答例の両方を提示することで、モデルが開発者にとって好ましい挙動をとるよう効率的に調整します。他のアラインメン…