DXシリーズ(経済産業省デジタル高度化推進室(DX推進室)連携企画)

アクセラレーテッド・コンピューティング・プラットフォーム・カンパニーNVIDIAとは

開催日 2024年11月27日
スピーカー 井﨑 武士(エヌビディア合同会社 エンタープライズ事業本部事業本部長)
コメンテータ 渡辺 琢也(経済産業省 商務情報政策局 情報産業課 情報処理基盤産業室長)
モデレータ 木戸 冬子(RIETIコンサルティングフェロー / 情報・システム研究機構 特任研究員 / 東京大学 特任研究員)
ダウンロード/関連リンク
開催案内/講演概要

半導体メーカーとしてGPU開発を主導してきたNVIDIAのエンタープライズ事業本部事業本部長の井﨑武士氏に、3Dグラフィックスの開発に始まった同社の歴史から、スーパーコンピューターに活用されるGPUの並列コンピューティングの特長、さらにアクセラレータとして計算処理の高速化を実現するためのプラットフォーム戦略を伺った。開発から展開まで、ユーザーがより簡単に処理の高速化を実現できるようNVIDIAの手がけるさまざまな製品開発・仕組み作りの中に、現在、生成AIの活用が大きな商機として登場している。中でもマルチモーダルな処理をこなすAIエージェントと、ロボティクスへの可能性についてもご紹介いただいた。

議事録

NVIDIAの会社概要とその革新の歴史

NVIDIAは1993年にジェンスン・ファンが創業した半導体メーカーです。「アクセラレーテッド・コンピューティング・プラットフォーム・カンパニーNVIDIA」と銘打っていますが、世の中の社会問題を計算で解決していくため、それを高速に処理していくプラットフォームを提供することを使命とする会社です。NVIDIAが創業した90年代はグラフィックスボードが多く世に出てGPUメーカーが乱立した時代でしたが、われわれもGPUを使用しPCゲーミングでの3D利用からスタートしています。

転換期となったのが2006年で、CUDAという並列コンピューティングの開発環境を打ち出し、3Dグラフィックスに対してだけでなく、汎用演算にGPUを活用できるようになりました。ここから並列コンピューティングをスーパーコンピューターで活用する時代が始まります。次の転換点はディープラーニングが登場した2012年です。GPUを使うことによってディープラーニングを高速化できることをAlexNetが実証し、われわれもそれをサポートするような仕組みを開発していきました。2018年にはさらにリアルタイムレイトレーシングという3Dグラフィックスをリアルタイムに表現できる技術の進化を経て、2020年にはOmniverseという仮想空間での設計を行えるプラットフォームを作成しています。

そして、2022年に生成AIが登場します。推論においても応答スピードを出すためにはGPUが必須となっており、われわれも大きな商機ととらえています。現在わが社が行っている事業領域は、CM・映画製作や製造業でのCAD、医療機器でのCTやMRIなどの3Dグラフィックス、それからスパコンを代表とするシミュレーションを中心としたHPC、そしてAIとなります。

アクセラレータを可能にするNVIDIAプラットフォーム戦略

NVIDIAで扱うGPUの3Dグラフィックスの進化をいくつか映像でご紹介します。GPUで物理演算を実現することで、重力・摩擦・炎の動きなども正しくシミュレーションすることが可能です。この3Dグラフィックスは車のCMはいうに及ばず、工場内の設計、仮想空間の中でのロボットの学習・訓練などにも利用され始めています。

物事を順番に処理していく逐次処理の得意なCPUに対して、GPUでは一つ一つのコアの動きはそれほど高速ではありませんが、2万コアぐらいを並べ計算を一度に行うことで、アクセラレータとして計算に特化した形で並列処理を行います。並列処理を可能にする約5%のコードが性能の約80%に影響を持つ場合が多く、このGPUのコードを最適化することで、例えばバンカーショットの砂の粒子の一つ一つ、シミュレーションで同時に動かすなどの、莫大な計算処理が可能になります。

GPUを使ったプラットフォームに関して、NVIDIAは大きく3つの製品軸を持ちます。GPU製品と、ARMを使ったCPU製品、そしてネットワーク製品です。アプリケーションの性能はGPUの計算性能だけでは決まりません。処理されるデータは計算処理の過程でCPU・GPUメモリの間を頻繁に移動します。そのため、両者間の通信帯域が狭いとデータの移動が間に合わず計算が止まってしまうことあります。また、最近のLLM(大規模言語モデル)は非常にサイズが大きく、1つのGPUや1つのサーバーのメモリには載りきらない場合があります。従って、1サーバー内のおいては、独自規格のNV-LINKという通信インターフェースを使用し、最新のものは1.8TB/sくらいの高速帯域を実現しています。また複数のサーバーで分散処理を行う際は、高帯域、低遅延のネットワークが重要なため、ネットワーク製品を持っており、データの流通経路を高速化することによって、ボトルネックが起きないような構造を可能にしています。

その他、より簡単に高速化が得られるようにいくつかの製品展開をしています。高速演算ライブラリは、一般的な行列演算や、乱数発生、ディープニューラルネットワーク向け、あるいは量子コンピューティング向けの状態ベクトルの演算などまで、GPUの高速演算性能を簡単に引き出すことができる仕組みです。その上で最近は、産業やアプリケーションに特化した形のアプリケーションフレームワークレイヤーというものにも開発投資をし、開発からデプロイ(配置・展開)までが非常に容易にできるような仕組みを用意しています。

このようなフレームワークの設計においては、リサーチャーや開発者の意見を多く取り入れています。世界各地で連携しているスタートアップのネットワークもその1つです。“Know the workload”とは社内での金言でもありますが、われわれは開発部門や事業部門に話をしに行きます。リサーチャーにエンゲージメントをし、その中で必要な計算が何なのかと理解をし、それを高速化するために何ができるのかというような発想で考え、活動を続けています。

技術的な進展についてご紹介しますと2012年のKepler、2015年にはディープラーニングに特化した形でのMaxwell、それ以降も論文の登場や技術動向に合わせてアーキテクチャの進化を続け、最近では計算ケイパビリティがFP4のものなど、常にアーキテクチャの刷新をしています。現状、Blackwellと呼ばれるものが最新ですが、これはトランスフォーマーと呼ばれるアルゴリズムを高速化できるような作り込みもしてあります。

一方で計算だけではなくてGPU間の通信を高速化する構成も必要になりますので、NV LINKというインターフェースにスイッチを用意することによって並々ならぬ高速化を実現できるようになりました。今、新しく予定されているGB200 NVL72というユニットでは、現行の主力ラインと同じ学習を比較した場合、電力効率も 1/4 となりコストも減らすことができます。

NVIDIAの生成AI活用への取り組み

AIの活用の領域は、カスタマーエクスペリエンス、コンテンツ作成、コーディングや製品開発まで非常に増えています。その中で生成AIをどのように使っていけば良いのか、Chat GPTなどの既存のマネージドサービスは、展開は容易で迅速に可能である一方、秘匿データの扱いなど企業のデータセキュリティポリシーの観点から利用が制限されてくることがありますし、業界特化などのモデルの構築には対応できない場合もあります。その場合、一般的なオープンソースのものをカスタマイズしていくことになります。

このカスタマイズ化したモデルの構築にはさまざまな検討が必要になります。まずデータをクリーニングし整理するキュレーション作業、複数のGPUや複数サーバーで分散して学習するためのフレームワーク、さらにファインチューニングの手法の検討、RAG(検索拡張生成)で自社データなどの既存データを使ってデータベース化をどう実現するのかという視点、また推論で高速レスポンスを可能にする最適化や、不適切な内容については制限をかけるガードレール機能も必要になってきます。 以上のようなモデルのカスタマイズ化に必要な点を考慮し、NVIDIAではNeMoと呼ばれるフレームワークで、先ほどの課題を一つ一つマイクロサービス化し、簡単にご自身の仕組みを作っていただけるようにしました。

生成AIは、2022年の認知、2023 年の検証を経て、今年(2024年)・来年(2025年)には活用の段階に移ろうとしています。ただしオープンソースで独自で構築する場合、オープンソースのソフトウェアがバージョンアップした際の動作検証、バージョンのディペンデンシーを解決し続けながらメンテナンスをしていくと非常にコストがかかります。NVIDIAはこの問題を解決するために、インファレンス向けのマイクロサービスをNIMを用意しました。これは必要なソフトウェアをパッケージにしてダウンロードできる仕組みを持ちます。オープンソースのモデルもGPUで最適化をしているので、例えばLlama3の場合一般的なベースラインに比べるとパフォーマンスが5倍ぐらいになり、簡単に効率化が図れます。一例として、NIM ON のケースとOFF のケースでジグソーパズルの処理速度にどれほど差が出るのかを映像でご紹介します。

さらに、NIMの組み合わせ方で何ができるのかというアプリケーションのひな型を、NIM Blueprint(ブループリント)という名前で出し始めています。デジタルヒューマンを作れるためのブループリント、RAGを使ったブループリントなど、今6種が世に出ていますが、仕組み通りに展開をいただけると、簡単にアプリケーションを構築できるようになります。一例として、デジタルヒューマンの場合には、ASRと呼ばれる音声認識のNIM、内容を解釈して回答を作るためのLLM、また回答を音声として戻すための音声合成のNIM、また話した言葉で顔の表情筋を変えるためのNIMなどを組み合わせて、デジタルヒューマンの作成が可能になります。RAGを使うことによって専門用語などもきちんと引用して会話ができるものです。

今後、生成AIは言語と画像を組み合わせて情報処理し、マルチモーダル化し、スマートシティ監視カメラ、製造業の中で事故が起こった場合の分析や、顧客の行動パターンを見るなど、さまざまな場面での活用が期待されます。来年は、エージェント型AIがキーワードになると私は思っています。複数のモデルを選択的に使っていったり、エージェントがいろいろなアルゴリズムなどを活用したりしながら、必要なものを選択し、判断し、行動を起こしていくというAIです。その先にあるものとして、いろいろなセンサーデータを使ったマルチモーダルのシステムが増えてくることが予想され、これがロボティクスに進化する流れが想定されます。われわれもロボティクスの強化学習の肝である報酬モデルの作成に生成AIを活用し、報酬と結果のアップデートを繰り返し、人間が作るよりも優れた報酬モデルを作成するなどの取り組みをしています。

以上がNVIDIAの歴史・会社概要・注力しているところのご紹介となります。

この議事録はRIETI編集部の責任でまとめたものです。