このページの本文へ

新清士の「メタバース・プレゼンス」 第94回

1000円あればOpenAIレベルのAIが作れる DeepSeekで注目の「蒸留」とは

2025年02月10日 07時00分更新

文● 新清士

  • この記事をはてなブックマークに追加
  • 本文印刷

約6ドルの学習費用で「o1-preview」レベルを実現

 蒸留法を使ったLLMの追加学習に非常に効果があることを証明する研究も登場しました。2月6日に、スタンフォード大学とワシントン大学のAI研究者が発表したのは、蒸留手法を使うことで、非常に安価で高性能なLLMを開発できるという研究です。「s1-32B」というモデルとして公開されています。

 この研究では、事前トレーニングとして、学習しやすいように入念に設計された難易度、多様性、品質の3つを基準にした1000の質問と回答のペアを準備します。その回答を作成するために、グーグルのLLM「Gemini2.0」のAPIを利用して推論させ、それらをデータセット「s1K」としてまとめます。この優れたLLMの推論過程も学習用データセットに含める点が、蒸留による学習手法の肝です。質問に用意された分野は、「線形代数」「幾何学」「確率論」「生物学」「量子力学」など、多岐にわたる科目・トピックが用意されています。

s1kで扱われている質問のジャンル(左)、いくつの設問を学習に使い「競技数学500問」の正答率のLLM別の比較(右)。DeepSeek R1蒸留タイプ(r1-distill)は80万問を用意しているのに対し、s1-32B(s1)は1000問しか用意していないにも関わらず、正答率はほとんど変わらない(「s1: Simple test-time scaling」より )

公開されているデータセットs1k。回答(Solution)と質問(Question)、思考過程からなる。各設問はそれぞれ専門知識を問うもので難易度が高く、いくつか読んでみたが、質問自体が何を問われているのかわからない難しさ

 例えば、質問と回答の一例としては下記のようなものでした。筆者にはこの問題の難易度が判断できないので、o1に聞いたところ、アメリカの高校生向け数学コンテスト(AIME)で使われる水準の問題とのことでした。

数学の問題のデータの例。実際は英文で、Geminiが行った推論は3ページまである。正解は「157」

 このデータセットを使い、アリババのLLM「Qwen2.5-32B-Instruct」をベースに追加学習して、s1-32Bを開発しました。学習には、NVIDIA H100 GPUを16基使用し、約26分間で完了したとしています。その際の計算コストは約6ドル(約910円)と報告されています。

 その結果、2024年9月にリリースされたOpenA1 o1-previewと比較した場合、「MATH(競技数学500問のベンチマーク)」で、o1-previewが85.5%の正答率に対して、s1-32Bは93%と7.5%の向上、「AIME24(アメリカ招待数学試験2024年版)」でOpenAI o1-preview: 44.6%の正答率に対して、s1-32B: 56.7%と27%の向上と、学習させた数学等の分野について大幅な性能向上を実現できたとしています。

 興味深いのが、当初は5万9000問の設問と回答と推論とを用意していたようですが、それより1000問に絞り込んだほうが結果はよかったということです。厳選された設問と思考過程の方が、AIの追加学習に対して、より優れた結果を生み出すようです。また、推論する時間を長く取れば取るほど、正答率も上がっていくとしています。

 DeepSeekは厳密には同じではないようですが、o1にAPIを通じて大量の質問を投げ、その回答と推論過程を学習データとして使うことで高性能なLLMを比較的安価に生み出すことができたようです。

トークン数が増えていくに従って、正答率が上がっている。左から「数学問題」、「競技数学」、「博士課程レベルの質問」。100トークンは英文約300字、日本語で約120字(「s1: Simple test-time scaling」より )

カテゴリートップへ

この連載の記事

ASCII倶楽部

注目ニュース

  • 角川アスキー総合研究所

プレミアム実機レビュー

ピックアップ

デジタル用語辞典

ASCII.jpメール デジタルMac/iPodマガジン