ファインチューニングの終焉：全ては継続的な事前学習

少し古いですが「ファインチューニングの終焉（The End of Fine-tuning）」という記事が面白かったので、簡単なメモです。

www.latent.space

この記事に登場するFast.aiのJeremy Howardさんは「事前学習→追加学習→RLHF」のように、フェーズごとにデータセットの種類・手法を完全に切り替えていく言語モデルの学習方法は「もはや正しくない」と主張しています。

「私は今では誰もが採用している 3 段階の学習アプローチを最初に考案しましたが、これは実は間違っており、使用すべきではないというのが私の今の見解です。正しい方法は、ファインチューニングという考えを捨て去ることです。そのようなものは存在しません。ただ事前学習を継続するだけです。

事前学習とは、最初から、関心のあるあらゆる種類のデータ、関心のあるあらゆる種類の問題、指示、演習、コード、汎用ドキュメントの完成などをすべて含めるようにすることです。そして、トレーニングするにつれて、徐々にそれをキュレートし、徐々に品質を高め、実行したいタスクの種類にますます特化していきます。ただし、データを捨てることはありません...

それが今の私の見解です。ULMFiT は間違ったアプローチだと思います。それが、いわゆるアライメント税（alignment tax）が数多く見られる理由です。実際には、人々が間違ったトレーニングをしているからだと思います。」

このコメントで言及されている「アライメント税」は、LLMが有害な出力をしないように微調整するアラインメントによってモデル性能が低下してしまう現象を指しているのだと思います。
そのほか、Llama-2にコーディング特化の学習を加えたCodeLlamaが一般タスクでの性能を落とした例にも言及しつつ、過去に獲得した知識を追加学習中に失ってしまう「壊滅的忘却」を防ぐためには常に学習データの多様性を維持し続けることが重要だ、というのが論旨みたいです。
- 最終的な用途に合わせて重要なデータの構成比率を増やしていく必要はありつつも、それ以外のデータを完全に捨ててしまうと学習によって汎用性能が劣化してしまう。
そういえば、以前にも似たような投稿をメモしていました。微調整中も1/4くらいは事前学習データを混ぜたほうがいいのでは？という内容です。

sc-bakushu.hatenablog.com