News

Google TurboQuant「メモリ6分の1」— HBMスーパーサイクルは揺らぐのか

Published: March 26, 2026Author: techandchips
Google TurboQuant「メモリ6分の1」— HBMスーパーサイクルは揺らぐのか

2025年3月25日、Google Researchが「TurboQuant」を発表した。LLMのKVキャッシュを3ビットまで圧縮し、メモリ使用量を6分の1に削減。NVIDIA H100での推論速度は最大8倍。精度損失はゼロ。インターネットではHBOドラマ『シリコンバレー』の架空の圧縮アルゴリズム「Pied Piper」が現実になったと騒然となった。

だが、市場の反応は祝祭ではなかった。発表翌日、Samsung Electronics −4.8%、SK Hynix −5.9%。KOSPIの下落率上位に両社が並んだ。投資家の計算はシンプルだった——「AIがメモリを6分の1しか使わないなら、HBMも6分の1で済むのでは?」

この記事では、その「シンプルな計算」がなぜ間違っているのか、そしてTurboQuantの本当の衝撃波がどこに向かうのかを解剖する。

TurboQuantの正体 —「圧縮」は何を圧縮するのか

AIが長い会話を続けるには、過去に計算した中間値(Key-Valueキャッシュ)をGPUメモリ上に保持し続ける必要がある。会話が長くなるほどこのキャッシュは指数的に膨れ上がる——モデルが「物忘れなく記憶を維持するためのコスト」だ。

TurboQuantが圧縮するのは、まさにこのKVキャッシュだけだ。構造は2段階。まずPolarQuantが高次元ベクトルを極座標系に変換し、分布が均一化された状態で3〜4ビットに量子化する。次にQJL(Quantized Johnson-Lindenstrauss)が量子化誤差をわずか1ビットの符号情報で補正する。学習もファインチューニングも不要。すでにデプロイ済みのモデルにそのまま適用できる。

ここが核心だ——TurboQuantが削減するのは「GPU上のキャッシュメモリ」であって、GPU自体でもHBM自体でもない。

株価が落ちた本当の理由 — 投資家が見落としたもの

SamsungとSK Hynixの株価が下がったロジックはこうだ。「メモリ使用量6倍減 → HBM需要減少 → メモリスーパーサイクル終了」。だが、この等式には1865年から繰り返されてきた落とし穴が潜んでいる。

経済学ではこれを「ジェヴォンズ・パラドックス(Jevons Paradox)」と呼ぶ。資源の効率が上がると消費が減るのではなく、用途が拡張されて総消費量がむしろ増加する現象だ。石炭効率が向上すると石炭使用量が爆増し、JPEGが画像を圧縮するとインターネットの画像トラフィックは爆発した。H.264が動画を圧縮すると、ストリーミングの時代が開幕した。

実際、TurboQuant発表直後、複数のアナリストがまさにこのパラドックスを引用した。

「パニックに陥るな。需要はむしろ増える」— 複数アナリスト(Futunn、2026年3月26日)

KVキャッシュが6分の1に縮めば、同じGPUで6倍長いコンテキストを処理するか、6倍多いユーザーを同時にサービングできる。これはコスト削減ではなく、能力拡張だ。そして能力が拡張されれば、例外なく新たな需要が爆発する。

HBMスーパーサイクルの「体力」

数字で確認してみよう。Bank of Americaは2026年のHBM市場規模を546億ドルと推定する。前年比+58%。SK HynixのHBMグローバルシェアは62%、MicronがSamsungを抜いて2位に浮上した。そして2026年のHBM生産分は、すでに全量完売している。

HBM需要の本質は「容量」ではなく「帯域幅」にある。AIアクセラレータがHBMを搭載する理由は、データを大量に保存するためではなく、データを高速に読み書きするためだ。TurboQuantがキャッシュ容量を減らしても、GPUとメモリ間の帯域幅需要はモデルが大型化するほど上がり続ける。

「AI推論のリアルタイムメモリ需要は約750PB、冗長構成を含めると約1.5EBに達する」— SemiAnalysis、2026年

これはアルゴリズムひとつで相殺できるスケールではない。SK Hynixが先週ASMLに80億ドル規模のEUV装置を発注し、米国ADR上場を推進しているのは、この数字を見て下した判断だ。

工場の現場にとっての「本当の意味」

ではTurboQuantの本当の受益者は誰か。データセンターではなく、エッジ——つまり現場だ。

発表からわずか数時間で、独立系開発者が論文の数学だけを頼りにPyTorch実装を構築した。RTX 4090一枚でGemma 3 4Bモデルを動かし、2ビット圧縮でも原文と文字単位で同一の出力を確認している。MLX(Apple Silicon)やllama.cpp(C/CUDA)の実装もすでに登場した。

これが意味するところは明確だ。データセンター級のハードウェアなしに、コンシューマ向けGPUだけで大型モデルの推論が可能になる。熊本の中小製造業者が、クラウド費用なしにローカルで外観検査AIや設備異常予知を稼働させられるようになるということだ。

HBMスーパーサイクルはデータセンターの物語だ。TurboQuantが開くのはその外側——工場の現場、病院、物流倉庫でAIが「当たり前のツール」になる世界である。

参考資料

T&C

techandchips

techandchips provides AI solutions for manufacturers in the Kumamoto semiconductor cluster. We support equipment monitoring, predictive maintenance, and traceability for TSMC supply chain compliance.

Share this article