「llama2.c」を試したときに「TinyStories(小さな物語)」というデータセットの存在に興味を持ったので少し調べてみました。
note.com
タイトルは「TinyStories: How Small Can Language Models Be and Still Speak Coherent English?」。著者はRonen Eldan, Yuanzhi Li (Microsoft Rsearch)、2023年5月の論文です。
arxiv.org
論文要旨(日本語訳)
言語モデル(LM)は自然言語処理のための強力なツールであるが、パラメータが小さい場合、首尾一貫した流暢な文章を生成するのに苦労することが多い。GPT-Neo(small)やGPT-2(small)のような125M程度のパラメータを持つモデルは、広範な学習を行っても、数語以上の首尾一貫した一貫性のある英文を生成することはほとんどできない。このことは、首尾一貫した英文を生成する能力の出現は、より大きなスケール(数億以上のパラメータを持つ)や複雑なアーキテクチャ(何層もの大域的な注意を持つ)においてのみ発生するのかという疑問を提起する。本研究では、GPT-3.5とGPT-4によって生成された、典型的な3~4歳児が通常理解する単語のみを含む短い物語の合成データセットであるTinyStoriesを紹介する。TinyStoriesを用いることで、最先端のモデルよりもはるかに小さい(総パラメータが1000万以下)、あるいははるかに単純なアーキテクチャ(変換ブロックが1つしかない)を持つLMを学習・評価できることを示す。また、言語モデルの評価のための新しいパラダイムも紹介する: GPT-4を使って、これらのモデルによって生成されたコンテンツを、あたかも生徒が書いた物語を(人間の)教師が採点するかのように採点する枠組みを提案する。この新しいパラダイムは、モデルの出力がしばしば非常に構造的であることを要求する標準的なベンチマークの欠点を克服し、さらに、文法、創造性、一貫性などのさまざまな能力に対するスコアを提供することで、モデルに対する多次元的なスコアを提供する。
メモ
-
従来、10Mパラメータ以下の小さく単純な構造の言語モデルでは首尾一貫したテキストを生成するのが難しいとされていたが、データセットの工夫により流暢なテキスト生成も可能であることを示した。
-
具体的には、幼児レベルの限られた語彙を使い簡単な構造で書かれた短い物語文(TinyStories)をGPT3.5で生成し、これをデータセットとして学習に用いた。
-
TinyStoriesで学習したモデルの出力は、GPT-4により評価した。文法的に正しい文章を出力する能力はかなり小さなモデルでも観察され、文脈整合性や創造性の能力も順次発現する。
-
小規模モデルでも、文法や整合性は大規模モデルに近い水準に到達するが、創造性においては比較的大きな差が残る。
-
結論として、小さなモデルが一貫した文章を生成できないのはモデルにその能力が無いからではなく、一般的な学習データが語彙や内容的多様性の点で複雑すぎるからだろうという指摘。
-
なお論文セクション5、6は、言語モデルのアーキテクチャに関わるテクニカルな議論で、私はほとんど理解していない。
雑感
-
肝心のTinyStoriesデータセットの物語自体が(かわいらしいが)面白くはないというのが気になってしまう。論文の主旨から言えばあまり重要ではないのだろうが、物語の面白さをより的確に評価できたら嬉しい。
-
GPT-4であっても、長い文章で文脈的整合性の維持するのは現状難しく、プロンプトで介入しながら分割的に生成せざるをえない。「シンプルで定型的なデータセットで学習することで、より質の高いテキストを生成できる」という本論文の知見は、より大型の言語モデルの学習自体にも敷衍できる?例えば、SFなど特定ジャンルの短編小説を構造化したデータセットで訓練すれば、短編SFに特化した高品質の出力が期待できるのでは。
-
この研究では、データセットの生成時に、物語の多様性を維持するためにランダムなキーワードを指定している。言語モデルは「同じようなテキスト」を出力しがちなので、温度を上げるだけでなくプロンプトを工夫する必要がある。
-
GPT-4によるテキスト評価の個所で、GPT-4自身が出力したテキストをGPT-4に評価させているが、Creativity(8.26/10)やPlot(8.21/10)の自己評価が辛めなのが興味深い。GPT-4のような高性能モデルでも、評価・要約のような抽象化タスクは得意だが、創作のような具体化タスクは難しい。よって、アウトプットがモデル自身が納得するレベルには至らない。評価者/創作者としての能力ギャップが常に存在する。これは人間も同じことだけれど。
以下は、本文の抄訳(DeepLとChatGPTによる)。
---
1. イントロダクション
2. TinyStoriesデータセットの説明
3. GPT-Eval:TinyStoriesで訓練されたモデルの評価フレームワーク
4. TinyStoriesでトレーニングされた小さなモデルのパフォーマンス
5. 解釈可能性
6. TinyStoriesを用いたNLPのアーキテクチャとハイパーパラメータの探索
7. 関連研究
8. 結論