RIETI - 生成AIのもたらす社会インパクトと取るべき戦略

DXシリーズ（経済産業省デジタル高度化推進室（DX推進室）連携企画）

開催日	2023年7月31日
スピーカー	栄藤稔（大阪大学先導的学際研究機構教授）
コメンテータ	山名早人（早稲田大学情報理工学科教授（早稲田大学理事））
モデレータ	木戸冬子（RIETIコンサルティングフェロー / 情報・システム研究機構特任助教 / 国立情報学研究所客員研究員）
ダウンロード/関連リンク	プレゼンテーション資料（栄藤氏）[PDF:5.1MB] 動画配信（プレゼンテーション）（YouTube）動画配信（Q&A）（YouTube）
開催案内/講演概要	生成AIの登場は、われわれが想像する以上の産業構造の変革をもたらし、ホワイトカラーを中心に人々の働き方も大きく変化させるだろう。本講演では、大阪大学先導的学際研究機構の栄藤稔教授から、生成AIの背景技術とコスト構造を解説いただき、日本企業における生成AIを活用したイノベーション創出の機会について議論いただいた。また、ロボティクスなどの異分野への応用、言語資源の権利処理、自動化時代の倫理的・法的・社会的な課題、さらにはデジタル人材教育についても議論を深掘りし、産業と社会が直面する生成AIによる変革への対処を考察いただいた。

議事録

大規模言語モデルの背景技術

大規模言語モデルは、スケーリング則と呼ばれる、データ量が増加するほど性能が向上するという特徴があります。その性能がある閾値を超えたときに登場するのがキラーアプリケーションで、サービス開始から2カ月で1億ユーザーを獲得したChatGPTはまさにその典型例と言えます。

深層学習がパターン認識、音声認識、画像認識に使えると言われ始めたのが2010年頃です。今あたりまえに私たちは音声認識を使っていますが、2010年以前に音声認識が実際のサービスに使えると言っていた人はほとんどいませんでした。その音声認識は2012年頃に閾値を超え、中でも中国語と英語の性能は顕著に向上し続けています。2015年頃には、多層CNN（畳み込みニュートラルネットワーク：機械学習に用いられる手法）という形で画像認識が使えるようになり、今では個人認証にも活用されています。

2016年頃には、LSTM（ニュートラルネットワークに用いられる層の1つ）に加えて、Transformer（深層学習モデル、主に自然言語処理の分野で使用される）の技術がデータとデータの関連性を多層的に組み上げることを可能にし、一文の機械翻訳が実用化の日の目を見ました。今や、同じ語族の言語間の性能は普通の人間の能力を超えています。これまで教師データがあるペア同士で学習していたところに、1つの言語内で言葉の関連付けを自己学習していく技術が導入されて出てきたのが、大規模言語モデル（LLM：Large Language Model）です。

大規模言語モデルが生成AIになるまで

大規模言語モデルの開発の過程でReinforcement Learning from Human Feedback(RLHF)という、人間にとって好ましい回答か否かを示すフィードバック機能が追加され、生成AIといわれるChatGPTが登場しました。大規模言語モデル自体は数十億円あれば作れると言われていますが、このRLHFがなかなか難しく、大きなブレイクスルーとなっています。

ChatGPTには、LLMであるGPT-3にRLHFを載せたInstructGPTに加えて、倫理的に好ましくない動きを制御する安全性、セキュリティが追加されています。LLMまではコストをかければ作れますが、InstructGPTの開発には3年はかかりますので、生成AIを開発する場合はここをどうやってキャッチアップするかが大きな課題になります。また、セキュリティを担保するためには個人情報漏洩や倫理的な問題など多くの課題があります。

ChatGPTの実用化には、提供者主導のファインチューニングとRLHF、ユーザー主導のプロンプトエンジニアリングの3種のチューニングが必要です。データ上でモデルを修正するためにはファインチューニングが有効である一方、コストがかかります。RLHFは人間の関与が不可欠で自身でモデルを作る必要があるので、ここのせめぎ合いが大きな課題になります。また、プロンプトは使いやすい一方で、信頼性の高い基盤モデルを生成するには不十分なので、トレードオフがあります。

OpenAIは年間300億円近くの運用コストがかかっていると言われています。大規模言語モデルは、モデル自体の開発だけでも最低100億円はかかるため、コストを抑えつつ、収入を得ていくビジネスモデルがなかなか描けない状況です。さらに日本には大規模言語モデルをゼロから設計できる人は50人にも満たず、人材不足も大きな課題となっています。

大規模言語モデルの地平

大規模言語モデルはもともとは「言語生成器」でしたが、性能が向上して多言語の応答型知識ベースとして使えるようになったことで、今、大きく状況が変わろうとしています。そこで言語生成器と知識ベースの中庸を取った、Retrieval Augmented Generation(RAG)が今非常に注目を浴びています。

これは、ユーザーからの質問をベクトルに変換し、外部から予備知識を与えることで、もっともらしい答えを引き出す手法です。一番使い手がいるのは、たぶんChatPDFだと思います。質問文を入れてPDFの中から該当場所を検索して、それに一番相当するところを大規模言語モデルに刺激として与えて、その答えを引き出すという形です。これがすごく今踊り場に来ていると思います。

ChatGPTでは言語情報の構造化が特定の言語に依存せずに多言語で抽象化されているので、ある特定の言語での質問に対して、その答えが英語であり、フランス語であったり、別の少数言語でもできるようになります。ですので、例えば、今後これが医療分野で使われると大きなブレイクスルーになると思います。

4月に株式会社MICINと金沢大学がGPT-4を用いた医師国家試験を解く研究を行ったところ、80%の正解率を示しました。ここでは画像とグラフを含む設問は除外されており、医学知識の不足、日本特有の医療制度に関する情報の不足、計算問題での誤りが原因と見られます。従って、マルチモーダル（画像・音声・テキスト・数値のデータの複合情報に対応可能であること）な生成AIと演繹的な推論への展開が課題であり、併せて英語だけでなく日本語の言語資産の蓄積も必要です。

今後この世界がどうなるかですが、大規模言語モデルを産業に使う場合、2つの軸があると考えています。1つは、プラットフォーマーAPI（Application Programming Interface）をツールとして使い倒していく方向、もう1つは、各企業や産業が専門的に扱うデータを自社アセット化していく方向です。

日本が進むべき戦略としては、プラットフォーマーAPIをツールとして使い倒していきつつも、秘匿性の高い自社データや顧客データを含む、正確なQ&Aを自分たちでチューニングしながら作っていくことです。そしてその先、運輸・製薬・製造といった業界特殊データのマネタイズ（収益化）を行っていきます。

ユーザーにツールとして使い倒してもらうにはカスタマイゼーションが必要です。そこはスタートアップが得意なので、スタートアップを育てていき、各企業に積極的に使ってもらうべきです。大規模言語モデルの先にあるものを見越した上でカスタマイゼーション事業を行い、正確なQ&Aのチューニングを専門領域に特化して進めていくことが重要です。

生成AIによる新たな商機領域と影響を受ける職種

企業にはダークデータと呼ばれる、電子化されていない、本棚にあるような、有効活用されていないデータがあります。日本はデータの電子化が進んでいないので、それが進めば各セグメントの専用モデルや日本語モデルの開発に商機が出てくると思います。

併せて、日本の出版社の協力も大きいところです。美しい日本語、正しい日本語の書き方、各作家の作風といったところを国のアセットとして見ていけるかどうかという点も重要です。ダークデータの利活用には組織を越えた情報管理が不可欠で、自社のトレードシークレットの漏洩を防ぐ技術投入が大きな課題になってきます。

最近出たマッキンゼーのレポートによると、創造的AIの利用事例がもたらす価値の約75%は、顧客運用、マーケティングと販売、ソフトウェアエンジニアリング、およびR&Dの4つの領域に集中しています。文書作成やコード変換に加えて、マルチモーダルなデータとして創薬にも活用されており、かなりのリソースがライフサイエンス領域に投下されています。

AIが職業に与えるインパクトを見てみると、600から700あるリストの中で、人文学系の大学教師が上位10位に多く入っています。さらに弁護士や聖職者といった高学歴職種も大きく影響を受けており、従来のやり方を変える必要性を示しています。

私が作成した4象限マトリクスは、縦軸に定型・非定型、横軸に知識労働と作業労働を取り、AIの影響を受ける職種を図示したものです。これまではテレマーケターをはじめとする第3象限が一番影響を受けると言われていたのですが、ここ数年でそれがマーケティングの専門家や弁護士といった、ホワイトカラーや専門職にまで広がっています。

巨大言語モデルは今後も性能が単調増加していきます。今は創薬、ロボティクスの応用を考えてマルチモーダルの研究が進行中で、オープンソースや軽量演算モデルにも期待が高まっています。それが演繹的タスクへ相転移し、ロボティクスによって身体性・能動性を得て自己成長していく仕組みができれば、今後大化けすることになります。

生成AIの倫理的・法的・社会的課題

これまでは人間が非定型処理をし、機械が定型処理をし、その間に混生領域がありましたが、今、物流や製造関係では、取り残された人間の上に機械が立ち、機械の指示に従って人間が動くという構図が起きつつあります。

大阪大学にELSI（Ethical, Legal and Social Issues：倫理的・法的・社会的課題）研究センターというのがありますが、このような状況は倫理的に許されないと考え、ソフト・ロー（実質的な何らかの法的拘束力のある非法的規範）によって企業に対する活動規定をすることが重要です。ロボティクスの部分を伸ばさないと逆転現象が起きてしまうので、日本の国策として検討してもよいのではないかと思います。

ChatGPTは、ChatGPTにRLHFとInstructGPTを搭載することで、人間が自動機械をコントロールするTwo layer cake structureができていますが、これを今後どのようにして維持するか、あるいは変更するかという点は大きな課題です。

日常生活では規範、宗教、社会の在り方を倫理と感じ、その倫理のもとに実装の透明性、データの正当性、セキュリティがあり、それらを実装する上で法律や倫理原則があります。そして企業に対するガイドラインとしては、提供側と利用者側の2つがあるわけです。

そこにはマーケティングと法律の相克が存在します。変化する社会に対して法規制の対応はなかなか簡単にはいきません。そうなると頼りになるのはガイドラインのような倫理原則で、それを正当化できるのがプロセスです。倫理審査、モニタリングの仕組み作り、ユーザーからのフィードバックといったものを落とし込んでいくことが大事です。

そして、技術、ビジネス、倫理を総合的に理解して研究を行うことができる人材を育てていくことも重要です。経済産業省の未踏事業を通して天才肌の人たちが育ってきたので、これをトップエリートからもう少し裾野を広げることで、データ整備と管理、最良技術の選択、優れた実装と運用ができるフルスタック人材の育成が必要だと思います。

山名：
2点深掘りをさせていただきたいと思います。1つは、分野あるいは企業に特化した大規模言語モデルをツールとして使いこなす上で、どのようなことを国や産業界がすべきか。もう1つが、将来、人間の記憶作業の重要性が減り、知識活用の重要性がより高まった際に、こういったツールを使いこなすにはどうすべきでしょうか。

栄藤：
プラットフォーマーAPIをツールとして利用する人たちを育て、いかに大衆化させるかが重要です。人のカスタマイゼーションやAPIのインターフェース領域に取り組む小回りの利く会社だけでなく、デジタル・デバイドを埋めるためには公的セグメントによる制度策定や援助も必要です。毎年100億円、プラス3年で何か出るかという世界で、こういう分野で活躍できる人間がせいぜい日本には50人しかいないので、やはり1つか2つにテーマを絞ってやっていくしかないでしょう。

その上では、各企業の協力が不可欠です。スイートスポットの領域を絞りつつ、戦略的に応用レイヤーを進めていく。国産でなくても構いませんが、企業を超えた協力がないと、産業特有の専用モデルを描くのは難しいでしょう。

私は米国のサンフランシスコにいましたが、カーナビを使っていたのでサンフランシスコの道を全然覚えていません。つまり知識は全部機械にあって、それをどう活用するかという世界になると思います。これから世界で大きな社会実験が始まるでしょう。

山名：
企業が抱える内部情報を共有するに当たり、プライバシーあるいは機密情報を守るために必要な技術についてはどう考えられますか。まずは非競争領域のデータ共有から進むのでしょうか。

栄藤：
良い意味での企業のトレードシークレットは共有して、流通させたくない部分は守るという調停技術が鍵になると思います。生成AIは何が出てくるか予測不可能なところもありますので、業界の各社のノウハウを共有できる協調領域をうまく設計できれば、非常に面白いものになるでしょう。

質疑応答

Q：: 日本が生成AIでキャッチアップすることは可能でしょうか。その場合、政府と民間企業のすべきことを投資金額と併せて教えてください。
A：: 今のパラダイムですと100億円程度で、3年はかかります。汎用ではなく、専用の領域でマネタイズできるところを探すのが得策でしょう。
Q：: ビジネス開発人材と使用する一般人のボトムアップはどのようにされますか。
A：: ユーザー企業がどれだけ最新のAIを使い倒すかが鍵になるので、カスタマイゼーションができる層、あるいはパートナー企業を育てていき、政府がそれを補助する形で応援できるとよいと考えます。
Q：: 大学の教授や弁護士が生成AIで影響を受ける職業の上位を占めているのは、一般に公開される情報の取り扱いの有無が関係しているのでしょうか。
A：: ChatGPTをうまく使うことで、文法チェック、過去の判例検索、関連法令の下調べなどをAIにやらせることはできますが、最終的に判断するのは人間なので、効率の良い仕事の仕方に変わると思います。
Q：: 人間は記憶不要という話がありましたが、今後必要な教育やお薦めの職種を教えてください。
A：: 立命館大学では、英語教育のディベートの準備に積極的に機械を使用しています。人間相手の仕事ですので、ドラフティングは全部AIが行い、判断や結論導出といった人間に残されたことだけに集中する働き方になっていくと思います。
Q：: 海外では、ダークデータの共通化や共有がなされているのでしょうか。
A：: 情報漏洩リスクに特化した会社ができているように、未活用のデータであったり、企業間を超えたデータの活用にビジネスチャンスがあるわけです。海外はデータがほぼ電子化されています。企業内のデータと出版社のデータを活用して、いかにダークデータの水平線のレベルを上げていくかということが大事です。
Q：: ロボットがロボットを生産できるようになるまで、あと何年かかるでしょうか。
A：: ロボティクスをやっている人間は、精密機械が精密機械を製造するようになったらチェックメイトだという言い方をしています。簡単なものなら4、5年でできそうな気もしますが、これは分かりません。ただし、必ずいつか来ます。
Q：: 世論操作や犯罪捜査等に与える悪影響を防ぐための規制やガイドラインの制定は、現実的に実行性があるのでしょうか。
A：: 日本の法律を作っている方々との議論が必要ですが、プラットフォームプロバイダーに自身が取り扱うデータ、運用ガイドライン、倫理原則を明示させて、国民が選別するというソフト・ローで決める話と、ラベルを貼っていくことが大事かと思います。
山名：: 検索エンジンで信頼性の低い情報は下部に表示されるといった技術が、大規模言語モデルの中でも将来出てくる可能性はありますか。
A：: それは放送法みたいにレギュレーションに入れるかどうかです。Googleの検索サービスがそれにシフトしつつありますが、ガイドラインをソフト・ローとして、多様性をもう少し矯正していくことになるのではないでしょうか。

この議事録はRIETI編集部の責任でまとめたものです。

生成AIのもたらす社会インパクトと取るべき戦略

議事録