2024-03-28から1日間の記事一覧

DPO（直接選好最適化）とは何か、メモ

最近、自作の指示応答データセットを使った微調整によってLLMにパーソナライズされた知識を追加することを試みているのですが、その際にモデルに植え付けられた過剰なアラインメントが知識追加の障壁になる場合があります。例えばモデルに対し「USER: 好き…