ChatGPTの登場により、さまざまなタスクをこなすことができる大規模言語モデルに注目が集まっています。ここでは、会話型AIサービスと、そのベースとなる大規模言語モデルを対象にして、ChatGPTの競合製品やサービスについて、いくつか紹介していきます。
グーグルの会話型AIサービス「Bard」
アメリカの新聞社ニューヨーク・タイムズは、「会話型AIサービスはグーグルの検索サービス事業を将来的に置き換える可能性があるとの危機感を抱き、グーグルの幹部が社内に対して『コード・レッド(非常事態)』を宣言した」と報道しました。
グーグルは、インターネット検索サービス、Gメール、ユーチューブなどのさまざまなウェブサービスを通じて、ユーザーの興味関心や検索履歴などのデータを収集し、これらのデータを活用することで、広告主のターゲットユーザーが関心を持ちそうなコンテンツを表示する、広告プラットフォームビジネスを行っています。特にインターネット検索事業は、同社の中核のビジネスであり、これまで多くのユーザーが、膨大なインターネットの世界から必要な情報を探し出すために、グーグルを使ってきました。
グーグルの検索サービスは、キーワードに関連深いウェブページのリストを提示するだけで、ユーザーはそのウェブページを自ら確認し、知りたいことを見つける必要がありました。しかし、ChatGPTはユーザーが知りたいことを直接的に回答してくれます。グーグルは、このようなサービスが、近い将来に検索サービスの脅威になると判断したと考えられます。
グーグルは2023年3月に会話型AIサービス「Bard」の提供を開始しました。BardはChatGPTのように専用のウェブサイトで質問を入力すると、文章で回答してくれるユーザーインターフェースを持っています。2023年5月時点では有料のプランはなく、無料で使うことができます。まずはアメリカおよびイギリスから一般公開を始めて、同年5月には英語に加え、日本語と韓国語にも対応したことを発表しました。今後、40言語に対応する予定です。
Bardは当初、グーグルの大規模言語モデルLaMDA(Language Model for Dialogue Applications)をベースに開発されましたが、2023年4月により高性能な大規模言語モデルPaLM(Pathways Language Model)に変更しました。大規模言語モデルの性能指標となるモデルのパラメータ数は、LaMDAが1370億で、PaLMが5400億になるそうです。PaLMはGPT-3(1750億パラメータ)と比べて、およそ3倍ものパラメータ数を持つ大規模言語モデルを開発したことになります。
なお、グーグルは同年5月に開催された年次イベント「グーグルI/O」で、BardのベースをPaLMから、次期バージョンの大規模言語モデルPaLM2に切り替えたことを発表しています。これにより、Bardは高度な数学推論スキルやコーディング機能などに対応しました。このコーディング機能はBard の人気用途の1つになっています。あわせて、グーグルは、Bardの質問と回答時にテキストだけでなく画像も使えるようにすると発表しています。
アマゾンの生成AIプラットフォームとアレクサの進化086
AWS(Amazon Web Services)は、2023年4月に生成AIプラットフォーム「アマゾンベッドロック(Amazon Bedrock)」を発表しました。これは、主要なAI スタートアップやアマゾンが開発した生成AIモデルをAPI経由で利用できるプラットフォームサービスです。
言語モデルとしては、AWSが開発した「アマゾンタイタン(Amazon Titan)」や、イスラエルのスタートアップ企業AI21ラボ(AI21 Labs)が開発した「ジュラシック―2(Jurassic-2)」、サンフランシスコのAIスタートアップ企業アンスロピック(Anthropic)が開発した「クロード(Claude)」などが使えるようになります。ユーザーニーズに合わせて、さまざまな言語モデルや生成AIモデルをAWSの環境上で選択して使えるため、サービスの開発や提供の観点で、自由度が高いことが特徴になります。ベッドロックは、ChatGPTやグーグルのBardのような会話型AI サービスをユーザーが独自に開発するためのプラットフォームを提供しています。
アマゾンは、2023年5月にAIアシスタント「アレクサ」を搭載したデバイスが全世界で5億台を突破したと発表しました。アレクサに対して生成AIの機能を追加していくことで、デバイスを進化させるとコメントしています。ウェブブラウザからテキストでコミュニケーションを取るChatGPTに対して、アマゾンは声でコミュニケーションを取るスマートスピーカー(エコー)のAIアシスタント(アレクサ)に大規模言語モデルを適用することで、会話型AIサービスの進化を目指しているといえるでしょう。
オープンソースの大規模言語モデルの進化
フェイスブックなどを運営するメタの研究組織メタAIリサーチは、2023年2 月に大規模言語モデル「ラマ(LLaMA:Large Language Model Meta AI)」を発表しました。この言語モデルの大きな特徴は、研究者向けに非商用利用ライセンスでモデルを公開したことです。ラマは4つのパラメータのバージョンがあり、小さい順に70億、130億、330億、650億のモデルが提供されています。
GPT-3(1750億パラメータ)の10分の1以下のパラメータサイズのラマ(130億パラメータ)であっても、複数の自然言語処理のベンチマークで、GPT ―3の成績を上回ったそうです。
また、このモデルは単一のGPUで動かすことができるため、大規模なインフラが用意できない研究者でも、言語モデルの研究が可能になります。実際、ラマをベースにした新しい大規模言語モデルが次々と発表されています。たとえば、スタンフォード大学のスタンフォードアルパカ(Stanford Alpaca)、カリフォルニア大学バークレー校のコアラ(Koala)、カリフォルニア大学バークレー校、カーネギーメロン大学などのビクーニャ(Vicuna)がそれにあたります。ただし、これらの言語モデルは、残念ながら非商用ライセンスでの公開になります。
一方で、ラマをベースにしない商用利用可能なオープンソースの大規模言語モデルも登場しています。AIプラットフォーム企業のデータブリックス(Databricks)は、2023年4月に商用利用可能なオープンソースの大規模言語モデル「ドリー(Dolly)2・0」を公開しました。また、イギリスのAI企業スタビリティAIも同年4月に商用利用可能な大規模言語モデル「ステーブルLM(StableLM)」を発表しています。
中国テック企業BATHの取り組み
今、世界の巨大IT企業が大規模言語モデルや会話型AIサービスの取り組みを進めていますが、中国でも同様の動きが見られます。中国の巨大IT企業は「BATH」と呼ばれています。これは、各企業の頭文字を取ったもので、「B:Baidu(バイドゥ」「A:Alibaba(アリババ)」「T:Tencent(テンセント)」「H: HUAWEI(ファーウェイ)」で、BATHになります。
インターネット検索大手のバイドゥは、2023年2月にAIチャットボット「文心一言(ERNIE Bot)」を発表しました。同年5月の発表によると、15万社以上の企業が文心一言のトライアルに応募してきているそうです。
EC大手のアリババは、2023年4月に大規模言語モデル「通義千問(Tongyi Qianwen)」を発表しました。まずは、同社が提供する企業向けコミュニケーションツール「ディントーク(DingTalk)」や、スマートスピーカー「天猫精霊(Tmall Genie)」に導入する予定です。通義千問は英語と中国語に対応しており、画像理解やテキストから画像への変換を含む、マルチモーダル機能も近日中に追加される予定です。
また、大手通信機器メーカーのファーウェイは、2023年3月に会話型AIサービス「盤古」を発表しました。同社の新型のスマートフォンに搭載予定です。中国メディアの報道によると、インスタントメッセンジャーサービスのウィーチャットなどを提供するネットサービス大手のテンセントも大規模言語モデル「混元」を開発中です。
開発が始まる日本語に特化した大規模言語モデル
ChatGPTやグーグルのBardなど、海外の企業が開発した大規模言語モデルは、その学習データの多くが英語になっています。たとえば、GPT-3の場合は学習データの約93%が英語で、英語以外の言語のデータは約7%です。そのため、英語で指示するのに比べて、日本語で指示したときのタスクの精度が低いことが指摘されていました。この課題を解決するためには、日本語に特化した大規模言語モデルの開発が有効な手段の1つになります。
サイバーエージェントは、2023年5月に日本語に特化した大規模言語モデル「オープンCALM」を発表しました。オープンCALMは、最も大きなモデルでパラメータ数が68億となっており、商用利用可能なオープンソースとして一般公開を始めています。また、元女子高生AIチャットボットの「りんな」を開発するrinnaも2023年5月に日本語に特化した汎用言語モデルと、対話型言語モデルを公開しています。
より巨大な大規模言語モデルの開発も始まっています。2023年5月に東京工業大学、東北大学、富士通、理化学研究所は、スーパーコンピューター「富岳」を活用した大規模言語モデルの開発を始めると発表しました。大規模言語モデルは、インターネットやスマートフォンのように社会全体を変革する力を持つ革新的な技術であり、研究開発、経済社会、安全保障などの観点でも基盤技術になるといえます。そのため、学術用途や産業用途にも幅広く使える、商用利用も可能なオープンソースの大規模言語モデルの開発を目指すことになりました。
本研究では、GPT-3なみの1700億パラメータの大規模言語モデルを富岳のリソースの5分の1を使って1カ月程度で開発する計画です。2024年度中には本研究成果を一般向けに公開する予定です。
すでにご紹介した通り、汎用人工知能の実現によって、AIが人間の知能を超えて高度なタスクの解決能力や創造性を持つようになる「シンギュラリティ(技術特異点)」の到来は、2045年ごろになるだろうといわれてきました。2045年というのは、未来学者レイ・カーツワイル氏が書籍『ポスト・ヒューマン誕生』で、述べたことに起因しています。一方で、現在の技術では、人間の知性を機械が完全に理解できているわけではないため、当分の間はそのようなことは起こらないだろうともいわれています。
しかし、ChatGPTが実現した、深く幅広い知識や人が話すような自然な回答は、まだ見ぬ汎用人工知能の実現可能性について改めて考えさせるのに、十分なインパクトを世の中に与えたといえます。これまでお話しした会話型AIや大規模言語モデルのさまざまな進化により、私たちは今、プレ・シンギュラリティ状態に差し掛かりつつあるのかもしれません。
(おわり)