BizGateコラム/生成AI

チャットGPT、登場から5年で進化 大規模言語モデル 『まるわかり ChatGPT&生成AI』(野村総合研究所 編) ChatGPTの全貌②

AI イノベーション データ活用

記事保存

日経BizGate会員の方のみご利用になれます。保存した記事はスマホやタブレットでもご覧いただけます。

会話型AIサービスの核である「言語モデル」

会話型AIサービスのChatGPTの裏には「大規模言語モデル」と呼ばれる仕組みが存在しています。言語モデルとは、人間が日常的に話したり書いたりする言葉(自然言語)について、次に出現する単語を予測するモデルのことです。AIの文脈において、モデルというのは、データから学習したパターンや関係性を表現する仕組みや構造のことを指します。

オープンAIでは、2018年に発表したGPT以降、複数の大規模言語モデルを開発していて、ChatGPTもその大規模言語モデルを使っています。ここでは、オープンAIが開発した大規模言語モデルのGPTシリーズについて解説したいと思います。

1 GPT(2018年)

GPTは、オープンAIが2018年に発表した、最初のGPTシリーズの言語モデルです。GPTが発表される前年に、ある画期的な手法(アルゴリズム)が登場しました。それは、「トランスフォーマー(Transformer)」と呼ばれるディープラーニングの手法です。トランスフォーマーは、グーグルの研究チームによって開発されたアルゴリズムで、「Attention is All You Need」という論文で初めて紹介されました。

人間が使用する言葉をコンピューターに理解させて処理させる技術として「自然言語処理(NLP:Natural Language Processing)」というAIの分野があります。たとえば、文脈や文章の意味・感情を認識したり、人間のような自然な文章を生成したり、言語間の翻訳を行ったりします。

自然言語処理の分野では、第3次AIブーム以降、さまざまなディープラーニングの手法が活用されていましたが、この「トランスフォーマー」は画期的な技術でした。それまでの自然言語処理アルゴリズムでは、入力される言葉を単語の並び順など一定の順序で処理をしていました。それは、文章の理解のためには、個々の単語ではなく、複数の単語や文節の関係性を捉える必要があったからです。しかし、当時の手法では、離れた単語の関係性を捉えることが難しく、また順番に計算する必要があるため並列で計算がやりづらく、処理に時間がかかるという問題がありました。

トランスフォーマーは、より離れた単語の関係性を捉えることができ、大量の計算を並列で処理することで、計算時間を短縮化できる手法でした。このようなアルゴリズムの特徴により、自然言語処理の分野においても大規模なテキストデータを用いた学習ができるようになったのです。GPTは「Generative Pretrained Transformer」の略称ですが、名前にも含まれている通り、トランスフォーマーの技術が使用されています。

ディープラーニングの手法を使って言語モデルを作る場合、大量の教師データが必要になります。教師データとは、言語モデルを作成するために使われるラベル付きのデータセットで、自然言語処理の分野ではテキストデータに対してラベルを付与したものです。ラベルとは、データが何を表しているかを示すもので、たとえば、ニュースの記事に対して、「スポーツ」「芸能」「政治」などのジャンルを表すタグや質問のテキストに対する「回答のテキスト」が該当します。

この教師データは通常、人の手で用意する必要があるのですが、大量のデータを用意するには大変なコストと時間を必要とします。一方、教師データが付与されないテキストデータ(教師なしのテキストデータ)はインターネット上に大量に存在するので、比較的簡単に集められます。

GPTは、はじめに大量の教師なしのテキストデータを使って、文法などの言語的特徴を学習させて、その後少量の教師データで追加の学習をすることで、目的のタスクに適応させる言語モデルを作ることに成功しました。

ここでのタスクとは、たとえば「質問に対する応答」「2つの文章が意味的に同じかどうかの判定」「テキストの含意関係(意味的に含まれるかどうか)」のようなことが挙げられます。このようなモデルの作り方をPre-Training&Fine-Tuning(事前学習と微調整)と呼びます。GPTはこのやり方で開発された言語モデルで、当時のさまざまな自然言語処理のベンチマーク(性能比較指標)で、最高レベルの性能(SoTA:State-of-the-Art)を達成しました。

2 GPT-2(2019年)

GPT-2は、オープンAIが2019年に発表した、2番目に開発されたGPT シリーズの言語モデルです。前バージョンのGPTは、「事前学習と微調整」の手法でさまざまなタスクに対応する言語モデルを開発しました。しかし、このやり方ではFine-Tuning(微調整)のための教師データが必要になり、タスク別に教師データと言語モデルを作る必要があります。GPT-2では、GPTよりも大量の教師なしのテキストデータを使い、さらに大きなディープラーニングのモデルで学習することで、さまざまなタスクに対応できる汎用的な大規模言語モデルの開発を目指しました。

ディープラーニングはニューラルネットワークを多層に結合したもので、その構造が大規模で複雑なほど、高度な表現能力と予測精度を持つことができると言われています。

大規模で複雑なディープラーニングのモデルであることを表す指標の1つとして、パラメータ数が挙げられます。GPT-2では、複数のパターンのパラメータ数で言語モデルを開発していますが、最も大きなものでは約15億のパラメータを持っていました。2019年当時、他の言語モデルのパラメータ数は数億パラメータ程度だったため、GPT-2は桁一つ違う大きさのパラメータを持つ大規模言語モデルだったといえるでしょう。

学習に使われたテキストデータもこれまでにない規模でした。GPT-2では、ウェブテキストと呼ばれる40ギガバイトのテキストデータを使いました。これは、アメリカの掲示板型ソーシャルニュースサイトであるレディット(Reddit)から、3カルマ以上獲得した投稿に記載されたリンク先のデータを集めたものです(重複するページの削除やウィキペディアの情報は削除するなどのデータクリーニングを実施することで、最終的には800万件の文章で40ギガバイトのデータセットを作成しています)。カルマとは、フェイスブックの「いいね!」のようなもので、ユーザーによって3カルマ以上の評価がされた投稿に限定することで、質の高い学習データの収集を目指したといわれています。

GPT-2では、文章生成、文章の補完、質問応答、翻訳、要約などのさまざまな自然言語処理のベンチマークで、最高レベルの性能(SoTA)を達成しました。その中で特に注目すべきことは、常識的推論(Commonsense Reasoning)と呼ばれる性能評価においても、SoTAを達成したことです。これは、テキストに含まれる一般常識を理解し推論する能力になります。

たとえば、「バラの花を挿した花瓶がテーブルから落ちました。」という文章に対して「何が割れたでしょう?」という質問をするとします。人間であれば、割れたのは花瓶ということが簡単にわかりますが、機械には一般常識というものがないので、何が割れたのかを回答させることは、難しいタスクでした。大規模データで学習させたGPT-2のような言語モデルでは、一般常識の理解が進むことを明らかにしたのです。

この一般常識の能力は、文章の理解、文章の生成、質問への回答など、さまざまな自然言語処理のタスクの質を上げるために重要であり、ここでの成果がさらに大規模な言語モデルであるGPT-3の研究につながったのでした。

なお、GPT-2は2019年2月に発表されましたが、パラメータサイズの小さなモデルから段階的に公開を進め、最も大きな約15億のパラメータを持つモデルが完全に公開されたのは、2019年11月でした。その理由は、人間が書いたような自然な文章を生成する機能が、たとえば偽のニュース、スパムメール、ヘイトスピーチなどの自動生成に使われ悪用されることで、GPT-2が社会に悪影響を与えてしまうことをオープンAIが懸念したからです。

3 GPT-3(2020年)

2020年にオープンAIの研究グループは、「Scaling Laws for Neural Language Models」という論文を発表しました。これは、前述のGPT、GPT-2でも用いられているディープラーニングの手法「トランスフォーマー」をベースにした言語モデルにおいて、モデルのサイズ(パラメータ数)、学習に用いるデータセットのサイズ、学習にかける計算量を増やすほど、より高性能な言語モデルができることを示した研究でした。つまり、これまでにない高性能な言語モデルを作るためには、より大きなパラメータを持つモデルを、より大きなデータセットで、より多くの計算量で学習させれば良いことになります。

そこでオープンAIは、GPT-2と比べてはるかに大きなパラメータとデータセットで学習させた、超大規模言語モデル「GPT-3」を開発し、2020年7月に発表しました。

GPT-3では、GPT-2と同様にパラメータ数やデータセットが異なるいくつかのパターンのモデルが開発されています。その中で最も大きなモデルは、パラメータ数が1750億で、データサイズは570ギガバイトもの大きさになりました。これは、ウィキペディアやウェブサイトから収集した45テラバイトのデータをクレンジング処理したデータセットになります。

前年に発表されたGPT-2の中で最も大きなモデルが、パラメータ数が約15億、学習データが40ギガバイトだったことと比較しても、パラメータ数で約117倍、学習データサイズで約14倍になっており、これまでにない巨大な言語モデルを開発したことがわかると思います。

GPT-3のデータセットには、3000億単語が含まれていたそうです。アメリカの大学の研究によると、人が1日に話す単語数は、およそ1万6000単語で、言語や年齢によって変わる可能性がありますが、仮に人生が80年間と仮定して単純に掛け算すると、約4・7億単語になります。人間は話すだけでなく、読んだり聞いたりするので、一生のうちに触れる単語数はもう少し多くなると考えられますが、それを踏まえても3000億単語というのが非常に多いことがわかると思います。

GPT-3は、さまざまな自然言語処理のベンチマークで、最高レベルの性能(SoTA)を達成しています。たとえば、次単語予測(ある文章の次に続く単語の予測)や、翻訳、質疑応答などが挙げられます。ニュース文を生成するタスクについては、その成果が大きな話題になりました。

まず、ニュースサイトのニューサー(newser.com)から任意の記事を選択し、そのタイトルとサブタイトルをGPT-3に与えて、ニュース記事を生成させます。次にアメリカ在住の80名の被験者に、人間が書いた記事かGPT-3が生成した記事かを当ててもらうという検証を実施したのです。その結果、1750億パラメータを持つ最も大きなモデルでは、52%の正解率になりました。人かGPT-3かどちらが書いたのかわからない場合、ランダムに選択することになるので、この場合の確率は50%になるはずです。それを踏まえると、正解率が52%というのは、人間にはほとんど見分けがつかないレベルでニュース記事を生成できたといえるでしょう。

また、GPT-3では、その指示の与え方によって、タスクの精度が上がることがわかっています。それは、GPT-3が発表された論文「Language Models are Few Shot Learners」のタイトルにもある「Few-Shot」と呼ばれる手法です。Few-Shotとは、タスクの指示と共にいくつかの例を与えるやり方で、たとえば図2-2のような指示のイメージになります。例が複数の場合は「Few-Shot」、1つだけの場合は「One-Shot」、例を与えない場合は「Zero-Shot」と呼びます。多くのタスクで、Zero-ShotやOne-ShotよりもFew-Shotの方が、高い性能を示しました。

このように、言語モデルに出す指示を工夫することで、言語モデルの性能を向上させる手法のことを「プロンプトエンジニアリング」と呼びます。このプロンプトエンジニアリングは、対話形式で指示を出すChatGPTの登場で、非常に注目が集まることになりました。

4 インストラクトGPT(2022年)

GPT-3はAIが生成したとわからないような、もっともらしい文章を生成できることで話題になった一方、「意味がない文章」「不正確な内容」「非道徳的な文章」を生成することがあるという問題が指摘されていました。

このようにAIが人間の目標や意図と一致しない行動をする問題のことを、「AI におけるアライメント問題(Alignment Problem)」と呼びます。オープンAIは2022年1月に、このアライメント問題を解消するため、人間からのフィードバックをもとに強化学習を行う手法「RLHF(Reinforcement Learning from Human Feedback)」を取り入れた「インストラクトGPT」を発表しました。インストラクトGPTでは、人間が作成した質問文とそれに対する回答文を約1万3000件用意して、GPT-3に対してファインチューニング(微調整)を行っています。あわせて、強化学習という機械学習の手法を使い、人間にとってより好ましい回答ができるよう、さらに微調整を実施したのです。

強化学習とは、エージェントが環境と対話しながら、報酬を最大化するように行動を学習する手法のことです。将棋を例にとると、「エージェント」は将棋のプレイヤーで、「環境」は将棋盤と駒、「報酬」は勝負の勝ち負けや局面ごとの評価値(駒の価値の合計など)になります。前述の世界トップレベルのプロ棋士に勝ち越したアルファ碁でもこの強化学習の手法を活用しています。

インストラクトGPTは、GPT-3で問題になった「意味がない文章」「不正確な内容」「非道徳的な文章」を抑制することができたかを確認するために、役立つ(helpful)、正直である(honest)、無害である(harmless)の3つの軸を用意して評価を行いました。その結果、パラメータ数が1750億のGPT-3のモデルよりも、パラメータ数13億のインストラクトGPTの方が高い評価を得たのでした。このことは、言語モデルの性能は、必ずしもモデルのパラメータ数やデータセットのサイズだけで決まるわけではないことを示したといえるでしょう。

5 GPT-3.5(2022年)

GPT-3.5は、2021年9月以前のデータを用いて学習させた、GPT-3 の改良版言語モデルです。GPT-3にインストラクトGPTの手法を用いて開発された言語モデルは複数存在します。中でもチャット用に最適化された「GPT-3.5 ターボ」は、ChatGPTで使用可能な言語モデルの1つになります。

6 GPT-4(2023年)

GPT-4は、2023年3月にオープンAIが発表した、最新の大規模言語モデルです。GPT-4は、ChatGPTの有償版であるChatGPTプラスにおいて利用することができます。それまでのGPTシリーズとの一番の違いは、GPT-4 は大規模なマルチモーダルモデルであることです。マルチモーダルモデルとは、複数の異なる形式のデータ(テキスト、数値、画像、音声、動画など)を組み合わせて処理することができるAIのモデルのことで、GPT-4はテキストデータと画像データに対応しています。

たとえば、複数の画像と一緒に、「この画像のどこが面白いのか、パネルごとに説明してください」という質問のテキストを入力するとします。すると、マルチモーダルモデルのGPT-4は、それぞれのパネル画像の内容について説明し、最後にどこが面白いのかを回答してくれます。

このようにGPT-4では、画像から読み取れる情報も踏まえて、ユーザーの質問に回答することができるのです。GPT-4が処理できる画像データは、いわゆる写真画像だけでなく、たとえば統計データの棒グラフの画像を入力して、そのグラフで表されている情報を踏まえて回答させることもできます。

GPT-4は、GPT-3までのようにモデルのパラメータサイズや学習に使用したデータセットなどを公開していません。オープンAIのGPT-4テクニカルレポートによると、GPT-4のような大規模モデルの競争環境と安全性を考慮した結果、このような方針を取ることにしたそうです。

公開されているGPT-4の情報からわかることは、GPT-4がGPT-3.5 と同じく2021年9月までのデータを使い学習していることと、トークンサイズがGPT-3.5より大きくなり、最大で8倍に増えていることです。

トークンとは、言語モデルが一度に処理できる単語やフレーズの数で、ChatGPTで使われているGPT-3.5(GPT-3.5ターボ)では、最大で4096トークンでした。一方、GPT-4では最大3万2768トークンのモデル(GPT-4-32k)があることを公開しています。

3万2768トークンは、大体50ページ分のテキストに該当します。トークン数が多いほど、言語モデルはより多くの情報を処理できるので、長い文章や複雑な質疑応答の文脈を理解して回答したり、より長い文章を生成したりする時に、一貫性を持った自然な文章を生成できるようになるのです。

GPT-4でも、自然言語処理のベンチマークで、前バージョンのGPT-3・5 を上回る最高レベルの性能(SoTA)を達成しています。また、自然言語処理のベンチマークテストだけでなく、人間が受けるテストをGPT-4に解かせた結果、どのようなスコアになったのかも検証しています。

たとえば、米国統一司法試験を解かせたところ、400点満点中298点を獲得したそうです。GPT-3.5では213点で、この試験の受験者のうち下位10%に含まれる成績でしたが、GPT-4が獲得した298点は上位10%に含まれる成績に該当したそうです。この試験の合格点が260から280点ぐらいなので、GPT-4 の優秀さがわかると思います。

また、アメリカの法科大学院(ロースクール)への入学試験であるLSAT(Law SchoolAdmissionTest)についてもテストを行っていて、GPT-3.5が149 点、GPT-4が163点でした。人間の平均点が150点ぐらいなので、こちらもなかなか優秀な成績であるといえるでしょう。

GPT-3で注目された不正確な内容を回答してしまう問題についても改善が進んでいます。AIのハルシネーション(幻覚)と呼ばれる現象で、簡単にいうとAIがもっともらしく嘘を回答することです。AIが間違いやすい質問において、人間が理想とする回答とどれぐらい一致するかを評価したところ、GPT-3.5がおよそ50〜60%ぐらいの正解率だったところ、GPT-4では20ポイント程度改善し、70〜 80%ぐらいの正解率になったそうです。

※なお、本著は2023年 5月に執筆しているため、現時点で最新の言語モデルであるGPT-4について、現状非公開の情報(パラメータ数やデータセットサイズなど)が今後一般公開される可能性があります。

『まるわかり ChatGPT&生成AI』(野村総合研究所 編)第2章「 ChatGPTの全貌」から抜粋。転載にあたり一部編集しました。

記事保存

日経BizGate会員の方のみご利用になれます。保存した記事はスマホやタブレットでもご覧いただけます。

AI イノベーション データ活用

閲覧履歴

    クリッピングした記事

    会員登録後、気になる記事をクリッピングできます。