Confidential Computingとは
TEEでデータを保護すること
先ほど後回しにしたConfidential Computingは、ここまで説明したTEEの上位の概念になる。もともとは2019年8月に、Linux Foundationがセキュアなコンピューティング環境を構築しよう、ということで立ち上げたのがC3ことConfidential Computing Consortiumであり、オープンな形でセキュアな環境を提供するためのフレームワークや仕様の策定を行なっている。NVIDIAもこのC3のメンバーである。
ところでC3においてはConfidential Computeを「ハードウェアベースのTEEで処理を実行することで、利用中のデータを保護すること」としており、具体的には「コードの完全性(不正なプログラムが実行されない)、データの完全性(不正なデータを注入されたりしない)、データの機密性(データが外部に流出しない)、という3つの主要な特性に対して、あるレベルの保証を提供する環境」と定義されている。
レベルについては別途定義されているが、今回は別にTEEの説明をしたいわけではないので割愛するとして、HopperではこのC3の定義するTEEに準拠する形で自身もTEEを実装しており、それもあって「業界では初めてConfidential Computingに対応したGPUである」と説明している。
第4世代NVLinkを18本搭載するGH100
さて次はNVLink絡み。Hopper世代では第4世代のNVLinkが実装された。GH100の場合、このNVLinkが18本搭載される。
1リンクあたり25GB/秒(片方向あたり:双方向では50GB/秒)なので、18リンク合計では900GB/秒もの帯域をカバーする。A100の場合は、速度は同じく片方向当たり25GB/秒だが、1枚のA100から最大12リンクしか出せなかった。
これを利用したDGX H100の構成が下の画像だ。8つのH100から、それぞれ4本づつのNVLinkが、4つのNVS(NV Switch)に接続される格好だ。NVSの方は最大64ポートということで、8枚のH100程度なら十分お釣りが来る。
SHARPとはNVIDIAが買収していたMellanoxが保有していた、Scalable Hierarchical Aggregation and Reduction Protocolのこと。Map/Reduceをネットワークプロトコルで実施する、と言えばわかりやすいか。元はInfiniBand向けのものだが、これをNVLinkに持ってきた形だ
少し意外だったのは、この構成ならH100とNVSの間をそれぞれ4リンクづつつないで、200GB/秒にしても良かったのではないか? と思うのだが、NVLinkではポートトランキングをサポートしていないようだ(資料を調べると、Trunk動作をできなくはないようなのだが、GPUとNVSの接続には利用できないらしい)。
SHARPの動作例がこちらで、トラフィックそのものを減らすことで実効性能を最大2倍にできるというものだ。もっとも、なんでもかんでも2倍にできるわけではないので、使いどころはやや限られてくるだろう。
ちなみにNVIDIAの説明によれば、このDGX H100が最小単位として、そのDGX H100を32ユニット接続するのはそのままNVLinkで可能であり、これを超える構成はInfiniBandでつなぐという構成で、1024ユニットまで接続できるという話である。
InfiniBandなら1024ユニットまで接続できる。ここまでくると、確かにDGX A100よりは帯域は上かもしれないが、NVLinkとInfiniBandのデュアルネットワークよりも、いっそInfiniBandの大規模スイッチを入れた方がレイテンシーが少ないのでは? という気がする
DPX命令を利用すると
Ampere世代より7倍高速化する
それともう1つ、DPX命令についても触れておきたい。こちらはまだ詳細は明らかになっていないのだが、DPX命令とはDynamic Programming、日本語では動的計画法と呼ばれる技法である。簡単に言えば、複雑な再帰的問題を、より単純な部分問題に分解して解くアルゴリズムで、例えばゲノム解析ではSmith-Waterman法、ロボット工学ではFloyd-Warshallアルゴリズムといった手法が有名になっている。
NVIDIAがこれに対してどういう命令セットを提供しているのかが今ひとつはっきりしないのだが、NVIDIAによればGH100で搭載されたDPX命令を利用すると、こうした動的計画法の実行をAmpere世代と比較して7倍高速化できた、としている。
ということで661回と今回でGH100/H100の特徴を説明してきたが、ごらんの通り全然コンシューマー向けには要らない機能が満載であって、やはりHopperはGPGPU向け専用ということで終わりそうだ。やはりコンシューマー向けはAda Lovelaceベースのものになるだろう。

この連載の記事
-
第852回
PC
Google最新TPU「Ironwood」は前世代比4.7倍の性能向上かつ160Wの低消費電力で圧倒的省エネを実現 -
第851回
PC
Instinct MI400/MI500登場でAI/HPC向けGPUはどう変わる? CoWoS-L採用の詳細も判明 AMD GPUロードマップ -
第850回
デジタル
Zen 6+Zen 6c、そしてZen 7へ! EPYCは256コアへ向かう AMD CPUロードマップ -
第849回
PC
d-MatrixのAIプロセッサーCorsairはNVIDIA GB200に匹敵する性能を600Wの消費電力で実現 -
第848回
PC
消えたTofinoの残響 Intel IPU E2200がつなぐイーサネットの未来 -
第847回
PC
国産プロセッサーのPEZY-SC4sが消費電力わずか212Wで高効率99.2%を記録! 次世代省電力チップの決定版に王手 -
第846回
PC
Eコア288基の次世代Xeon「Clearwater Forest」に見る効率設計の極意 インテル CPUロードマップ -
第845回
PC
最大256MB共有キャッシュ対応で大規模処理も快適! Cuzcoが実現する高性能・拡張自在なRISC-Vプロセッサーの秘密 -
第844回
PC
耐量子暗号対応でセキュリティ強化! IBMのPower11が叶えた高信頼性と高速AI推論 -
第843回
PC
NVIDIAとインテルの協業発表によりGB10のCPUをx86に置き換えた新世代AIチップが登場する? -
第842回
PC
双方向8Tbps伝送の次世代光インターコネクト! AyarLabsのTeraPHYがもたらす革新的光通信の詳細 - この連載の一覧へ














