banner
ホームページ / ニュース / 生成 AI とデータセンターの未来: パート VI
ニュース

生成 AI とデータセンターの未来: パート VI

Jul 18, 2023Jul 18, 2023

DE-CIX の CEO が語るデータセンターの適応方法について

DCD>Magazine の第 48 号では、生成 AI とそのデジタル インフラストラクチャへの影響に関する特集記事を掲載しました。 ここに直接たどり着いた場合は、最初から始めることをお勧めします: Generative AI: Hype、Opportunity、および the Future of data center // パート I - モデル

巨大な AI モデルを処理するためにシリコンが限界まで押し上げられているのと同じように、ネットワーキングとデータセンターのアーキテクチャも課題に直面しています。

「こうした大規模なシステムでは、たとえあなたが大脳であっても、どうしたって単一チップに収めることはできません」とセミアナリシス社のディラン・パテル氏は語った。 「それでは、これらの分割されたチップをすべて接続するにはどうすればよいでしょうか? 100 個ならなんとかなりますが、数千、数万になると、かなりの困難が生じ始めており、Nvidia はまさにそれを展開しています。 おそらく、世界で最高のネットワーキングを備えているのは、彼らかブロードコムのどちらかでしょう。」

しかし、クラウド企業も関与を強めている。 彼らは、成長するコンピューティング クラスターをサポートする独自のネットワーキング ギアとトポロジを構築するためのリソースを持っています。

アマゾン ウェブ サービスは、AWS 独自の専用 Nitro ネットワーキング カードを使用して、最大 20,000 個の GPU のクラスターを展開しました。 「そして、複数のクラスターを導入する予定です」と同社のチェタン・カプール氏は語った。 「それが、この特定の分野で AWS を差別化できる点の 1 つだと私は考えています。 当社では Nitro テクノロジーを活用して、Elastic Fabric Adaptor と呼ばれる独自のネットワーク アダプターを持っています。」

同社は現在、第 2 世代の EFA の展開を進めています。 「また、ノードごとの帯域幅を、A100 と H100 の間で約 8 倍に増やす作業も進めています」と彼は言いました。 「ノードごとに最大 3,200 Gbps まで上げるつもりです。」

Google では、大規模なデータセンター群のネットワークを総点検するという数年にわたる野心的な取り組みが成果を上げ始めています。

同社は、Mission Apollo のカスタム光スイッチング テクノロジを、これまでデータ センターにかつてない規模で導入し始めました。

従来のデータセンター ネットワークはスパインおよびリーフ構成を使用しており、コンピュータはトップオブラック スイッチ (リーフ) に接続され、その後、電子パケット スイッチで構成されるスパインに接続されます。 Project Apollo では、スパインを完全に光の相互接続に置き換え、ミラーで光線の方向を変更します。

Google の Amin Vahdat 氏は、「トレーニングやある程度の規模の推論に必要な帯域幅は膨大です」と述べています。

これまでで最大の特集はコンピューティングの次の波に焦点を当てています

Apollo のおかげで、同社は「これらのトレーニング アルゴリズムの通信パターンにより密接に一致するトポロジー」のネットワーキングを構築できるようになったと同氏は述べた。 「私たちは、膨大な量の帯域幅が同期かつリアルタイムで発生するチップ間でパラメータを配布するために、特殊な専用ネットワークをセットアップしました。」

これには複数の利点がある、と彼は言いました。 この規模では、単一のチップやラックに定期的に障害が発生します。「光回線スイッチは、通信パターンがメッシュの論理トポロジーと一致するようになったため、それに応じて再構成するのに非常に便利です」と彼は言いました。

「光回路スイッチに、『他の場所から他のチップを取り出して、欠けている穴にそれらのチップを差し込むように光回路スイッチを再構成して、続行します』と指示できます。」 計算全体をやり直す必要も、最悪の場合でも最初からやり直す必要もありません。」

Apollo は、容量を柔軟に展開するのにも役立ちます。 同社の TPUv4 は 4,096 チップのブロックまでスケールアップします。 「ここに 256 個、あちらに 64 個、ここに 128 個、あちらにさらに 512 個をスケジュールすると、突然いくつかのホールが作成され、そこに大量の 64 ブロックのチップが利用可能になります。」

従来のネットワーク アーキテクチャでは、顧客がこれらのチップを 512 個望んだ場合、それらを使用することはできません。 「光回線スイッチがなかったら、私は落ち込んでいたでしょう。いくつかの仕事が終わるまで待たなければならなかったでしょう」とヴァハダット氏は語った。 「それらはすでにメッシュの一部を占有しており、たとえ 1,024 個のチップが利用可能であっても、連続した 512 個がありません。」