この記事の概要
- Google Cloud Next ’26(2026年4月)で第 8 世代 TPU(8t / 8i)と Virgo ネットワークが発表
- TPU 8t は学習特化で前世代比 3×、9,600 チップで 121 エクサフロップスを実現
- Virgo ネットワークは 134,000 TPU を 47Pb/s の超高帯域ファブリックで接続する新世代データセンター基盤
背景・概要
AI ワークロードの急増はインフラの物理的な限界を試し続けている。
大規模言語モデルの学習には GPU / TPU クラスタ間の超高速通信が不可欠で、ネットワーク帯域がボトルネックになるケースが増えた。
Google は 2026年4月に開催した Google Cloud Next ’26 で、この課題に正面から応えるハードウェアを発表した。
第 8 世代 TPU の 2 系統(学習向け「TPU 8t」・推論向け「TPU 8i」)と、それらを結ぶ新世代ネットワーク「Virgo」だ。
「インフラエンジニアには GPU / TPU の話は関係ない」と思うかもしれないが、そうではない。
大規模モデルをクラウドで動かす際のコスト・レイテンシ・スケーラビリティの選択肢がこの発表で大きく変わるからだ。
詳細解説
TPU 8t——学習に特化した超算力
TPU 8t(t = Training)は大規模モデルの学習に特化して設計された。
主なスペックは以下の通りだ。
| 項目 | TPU 8t | TPU v4(参考) |
|---|---|---|
| 性能(前世代比) | 3× | — |
| 単一スーパーポッド構成 | 9,600 チップ | 4,096 チップ |
| スーパーポッドの総演算性能 | 121 エクサフロップス | — |
| 共有メモリ | 2 ペタバイト | — |
| チップ間接続(ICI) | 高速相互接続 | — |
9,600 チップが高速チップ間相互接続(ICI)で単一のスーパーポッドを構成し、共有メモリ 2 ペタバイトという規模は、数千億パラメータのモデルをシームレスに扱えることを意味する。
TPU 8i——エージェント時代の推論エンジン
TPU 8i(i = Inference)はリアルタイム推論、特にエージェントワークフローの低レイテンシ要件に応えるために設計された。
| 改善項目 | TPU 8i の変化 |
|---|---|
| オンチップ SRAM | 前世代比 3× → 384 MB |
| 高帯域メモリ(HBM) | 288 GB |
| ICI 帯域幅 | 前世代比 2× → 19.2 Tb/s |
| ICI ネットワーク直径 | 50% 以上削減 |
| オンチップレイテンシ | Collectives Acceleration Engine(CAE)により最大 5× 削減 |
特に注目したいのは Collectives Acceleration Engine(CAE) だ。MoE(Mixture of Experts)モデルのような分散推論では、チップ間の集合演算(AllReduce など)がレイテンシの主要因になる。
CAE はこれを専用ハードウェアで処理することで、ソフトウェアによるオーバーヘッドを大幅に削減している。
Virgo ネットワーク——データセンター規模のスーパーファブリック
TPU のハードウェアを活かすには、それを結ぶネットワークがボトルネックになってはいけない。
Virgo ネットワーク はまさにこの課題を解決するために設計された、新世代のデータセンターファブリックだ。
Virgo ネットワークの規模感
単一データセンター:
├── 134,000 TPU 8t チップを接続
└── 47 Pb/s の非ブロッキング双方向帯域幅
マルチサイタークラスター:
└── 複数データセンターをまたいで 100万 TPU を単一クラスタとして接続
前世代と比較した主な改善点は以下の通りだ。
- 帯域幅: TPU 8t あたりの帯域幅が前世代比 4×
- レイテンシ: アンローデッドファブリックのレイテンシが 40% 低下
- スケール: 1 つのデータセンター内に 134,000 チップを単一ファブリックとして接続
「47 Pb/s」という数字を日常的なスケールに置き換えると、インターネット全体のトラフィックがおよそ 1 Pb/s 程度と言われるので、Virgo ネットワーク 1 つでその 47 倍の帯域を持つことになる。
AI Hypercomputer との統合
TPU 8t と Virgo ネットワークは、Google の AI Hypercomputer アーキテクチャの一部として動作する。
AI Hypercomputer 構成
┌─────────────────────────────────────────────────┐
│ AI Hypercomputer │
│ │
│ ┌──────────────┐ ┌─────────────────────┐ │
│ │ TPU 8t │─────│ Virgo Network │ │
│ │ スーパーポッド│ │ 47 Pb/s ファブリック│ │
│ └──────────────┘ └─────────────────────┘ │
│ │
│ ┌──────────────┐ ┌─────────────────────┐ │
│ │ TPU 8i │─────│ Agentic Data Cloud │ │
│ │ 推論クラスタ │ │ Cross-cloud │ │
│ │ │ │ Lakehouse │ │
│ └──────────────┘ └─────────────────────┘ │
└─────────────────────────────────────────────────┘
実務での活用方法
大規模モデルの学習コスト試算
自社でモデルをファインチューニングするプロジェクトがある場合、TPU 8t の登場でコスト計算を再評価する価値がある。
前世代比 3× の性能は、同等のワークロードで学習時間とコストを大幅に削減できることを意味する。
Google Cloud の TPU 料金はオンデマンドより予約(1年・3年)で大幅に割安になるため、中長期のロードマップを持つ組織には特に検討を推奨する。
推論エンドポイントのレイテンシ改善
エージェントを本番環境で動かすとき、推論のレイテンシは UX に直結する。
TPU 8i は CAE によってオンチップレイテンシを最大 5× 削減しているため、応答速度が競争優位になるユースケース(リアルタイムチャット・コード補完・API レスポンス)での採用を検討する余地がある。
マルチクラウド・ハイブリッド構成でのポジショニング
Virgo ネットワークの「マルチサイタークラスタで 100万 TPU を接続」という能力は、将来的に大規模な分散学習をパブリッククラウドで実行するハードルを下げる。
AWS・Azure との比較でインフラ選定を行う際の評価軸として把握しておきたい。
注意点
TPU 8t / 8i および Virgo ネットワークは Google Cloud Next ’26 で発表されたばかりで、一般ユーザー向けの提供開始時期や詳細な料金は執筆時点(2026年5月)では限定プレビュー段階のものが多い。
プロジェクトへの適用を検討する際は必ず最新の公式情報を確認すること。
まとめ
Google Cloud の TPU v8 と Virgo ネットワークは、AI 学習・推論インフラの技術水準を一段引き上げた。
インフラエンジニアにとって直接触れる機会は限られるかもしれないが、「クラウドで AI ワークロードを動かす際の選択肢」として、この発表の内容は把握しておく価値がある。
特にエージェントワークフローの普及に伴い、低レイテンシ推論の重要性は今後ますます高まる。TPU 8i が解くレイテンシ問題は、自社サービスのレスポンス速度やコストに直結する課題でもある。
AI インフラの進化を「自分事」として読み解く習慣をつけておくと、将来の設計判断に活きるはずだ。
参考リンク
– Google Cloud Next ’26 ニュースまとめ
– AI インフラ at Next ’26(GCP Blog)
– Google Cloud Next 2026 全発表まとめ
– Virgo ネットワーキング詳細(GCP Blog)


コメント