Google最新TPU「Ironwood」は前世代比4.7倍の性能向上かつ160Wの低消費電力で圧倒的省エネを実現

2025年12月01日 12時00分更新

　2週ほど空いたが再びHot Chipsの解説に戻って、今回はGoogle TPU v7ことIronwoodを説明しよう。Google TPUについてはこれまでも何度か取り上げている。Google TPU v1～v3は連載565回で、v4は連載729回でそれぞれ触れている。

　筆者以外の記事で言えば、TPU v5eはこちら、v5pはこちら、v6e(Trillium)はこちらで触れている。ややわかりにくいのでまとめると以下のようなる。

Google TPUの歴史
v1	2015年初代	推論専用エンジン
v2	2017年5月	推論/学習両対応。BF16のサポートを追加
v3	2018年5月	v2の高性能版。最大1024チップまでスケール拡張
v4	2021年5月	v3の性能をさらに向上。光スイッチを導入して大規模化を可能
v5e	2023年8月	v4のコストパフォーマンス向上版。同じコストであればv4の2倍の学習性能、2.5倍の推論性能を発揮するとする。ただしチップの絶対性能そのものはv4より低い
v5p	2023年12月	v5eベースの高性能版。性能もv5e比で倍以上になり、より大量のチップを接続できる様になった。搭載メモリ量も拡大
v6e(Trillium)	2024年5月	v5e比で性能を4.7倍向上し、エネルギー効率も改善。ただし1つのPodは最大256チップ。v5eの後継といった位置づけ

　v5世代はeとpの両バージョンがあり、Trilliumと命名方法が変わったv6世代もv6e相当だったので、次はv6pが来るのかと思っていたのだが、記事にもあるように今回のIronwoodはv7、つまり第７世代扱いとなっている。

　このIronwood、今年11月25日にMetaがGoogleから数十億ドル規模で導入するとロイターなどで報じたことで俄然注目を集めるようになったわけだが、そんなIronwoodのもう少し細かな部分がHot Chipsで紹介された。

Ironwoodのピーク性能はBlackwellの半分ほど

　まずIronwoodの主要な特徴が下の画像だ。ここでの数字は、Googleの言うPod(9216コアを集積したサーバーラック群)での数字なので、チップあたりの容量はもっと少なくなるのだが、それにしてもなかなか意欲的である。

9216チップで42.5EFlopsなので、チップあたり4.6PFlopsほど。BlackwellがFP8で1枚あたり9PFlops(Tensor Core)とされるので、ピーク性能の比較で言えばざっくりBlackwellの半分ほどとなる

　8bit精度というのは初代のTPUからのもはや伝統という感じで、今後FP4などに移行するつもりかどうかはよくわからないが、このあたりはGoogleのこだわりなのかもしれない。

　Superpodという名称はNVIDIAも使っているが、TPU v4世代では最大4096個のチップをまず64個ずつのキューブとし、このキューブを組み合わせて複数のJobを走らせるという形になっていた。

ここで出てくるOCSとは連載729回に出てきたOptical Circuit Switchのことである

　これがTPU v5p世代では8192チップ(64×8×16)に増えていたが、Ironwoodでは64×9×16＝9216チップに増強された。

この大きさはOCSの能力を強化したということでもある

　キューブ同士は3次元トーラス構造になっているが、肝心のトーラスがX/Y/Zにいくつつながっているのか、は不明である(図はTPU v4世代と同じままである)。

TPU v5pの世代は、4×4×8あたりの構成で、これがIronwoodは4×4×9になったのだろうか？

前へ 1 2 3 次へ