スマホでAIが動く時代が来た:Gemma 4 Edge・BitNet・LiteRT-LMで変わるローカルAI

2026年6月9日

ふだん、GPUを2枚差したPCでOllamaを動かしています。ローカルAIの記事も書いてきましたし、自宅GPUでLLMを回す生活にはすっかり慣れました。

ところが2025〜2026年にかけて、スマホ向けのAIモデルやフレームワークが発表されました。Googleの「Gemma 4 Edge」、Microsoftの「BitNet b1.58」、そしてGoogleの推論フレームワーク「LiteRT-LM」。どれも共通しているのは、GPUなしで、スマホやノートPCのCPU/NPUだけでAIを動かすという方向性です。

結論としては、スマホAI(2B〜4B)はちょっとした質問や翻訳には十分使えるが、本格利用にはまだGPU環境が必要です。本記事では、Gemma 4 Edge・BitNet・LiteRT-LMの3技術を比較し、GPU環境との使い分けを整理します。

エッジLLMとは何か

まず用語の整理です。「エッジLLM」とは、クラウドのGPUサーバーではなく、手元のデバイス(スマホ、タブレット、ノートPC)のCPUやNPU(ニューラルプロセッシングユニット)で直接動く大規模言語モデルのことです。

従来のローカルAIは「自宅のゲーミングPCにGPUを積んで動かす」ものでした。エッジLLMはさらにその先、ポケットの中のスマホで動くというコンセプトです。

エッジLLMの最大のメリットは2つあります。

  • データが外に出ない: クラウドに送信しないので、プライバシーが完全に守られる。機密文書の要約や個人的な相談も気兼ねなくできる
  • ネット不要: 電波がないところでも動く。飛行機の中、山の中、災害時でもAIが使える

デメリットは明確で、モデルサイズが小さいこと。スマホのメモリ(6〜8GB)に載せる必要があるため、現状では2B〜4Bパラメータが上限です。GPU環境で動く14B〜32Bモデルと比べると、日本語の品質や推論の深さに差があります。

量子化の仕組み:なぜスマホで動くのか

エッジLLMを理解するうえで避けて通れないのが「量子化」です。これがスマホAIを可能にしている核心技術なので、少し踏み込んで説明します。

パラメータの精度を落としてモデルを小さくする

LLMのパラメータ(重み)は、もともとFP32(32ビット浮動小数点)で学習されます。1パラメータに32ビット = 4バイトを使うので、2Bモデルなら 2,000,000,000 × 4バイト = 約8GB。これではスマホのメモリに収まりません。

量子化は、この精度を段階的に落としてサイズを圧縮する技術です。

形式 ビット数 1パラメータのサイズ 2Bモデルの推定サイズ 精度への影響
FP32(学習時) 32bit 4バイト 約8GB 基準(100%)
FP16 / BF16 16bit 2バイト 約4GB ほぼ劣化なし
INT8 8bit 1バイト 約2GB わずかに劣化
INT4(GPTQ/AWQ) 4bit 0.5バイト 約1GB 体感できる劣化あり
1.58bit(BitNet) 1.58bit 約0.2バイト 約0.4GB 専用設計で補償

FP32の8GBが、量子化で0.4GBまで圧縮されます。20分の1です。8GBのスマホのメモリに余裕で載るサイズになります。

量子化レベル別:2Bモデルのサイズ比較

FP32(学習時)
8 GB
FP16
4 GB
INT8
2 GB
INT4(GPTQ/AWQ)
1 GB
BitNet 1.58bit
0.4 GB
ひとことで言うと: 量子化とは「数値の解像度を下げて、ファイルサイズを劇的に減らす」技術です。写真をPNG(高品質・大容量)からJPEG(やや劣化・小容量)に変換するのに似ています。BitNetの1.58bitは、極限までJPEG圧縮したようなものですが、最初からその圧縮を前提に設計されているため、品質の落ち方が穏やかです。

NPU vs GPU vs CPU:演算効率はどれくらい違うか

エッジLLMが動くプロセッサには、CPU、GPU、NPUの3種類があります。それぞれAI推論における効率(TOPS/W = 1ワットあたりの演算回数)がまったく違います。

プロセッサ 代表例 AI演算性能 電力効率(TOPS/W) 得意な処理
CPU Apple M2、Snapdragon 8 Gen 3 1〜5 TOPS 約0.5〜1 TOPS/W 汎用計算、整数演算
GPU(モバイル) Adreno 750、Apple GPU 5〜15 TOPS 約1〜3 TOPS/W 並列浮動小数点演算
NPU Apple Neural Engine、Hexagon 15〜45 TOPS 約5〜15 TOPS/W 行列演算に特化
GPU(デスクトップ) RTX 3090(参考) 285 TOPS (INT8) 約0.8 TOPS/W 大規模並列処理

NPUの電力効率がGPUやCPUの5〜10倍であることに注目してください。NPUは演算性能自体はデスクトップGPUに遠く及びませんが、1ワットあたりのAI演算効率でははるかに優れています。 これがバッテリー駆動のスマホでAIを動かせる理由です。

RTX 3090は285 TOPSと桁違いですが、消費電力が350Wもあります。スマホのバッテリー(約15Wh)では数分で空になる計算です。NPUは15 TOPSと控えめですが、消費電力1〜3Wで動くので、スマホで数時間使い続けられます。

メモリ帯域がトークン生成速度を決める

スマホでAIを動かすとき、実はCPUやNPUの演算速度よりメモリ帯域がボトルネックになることが多いです。LLM推論では、トークンを生成するたびにモデル全体のパラメータをメモリから読み出す必要があるためです。

トークン生成速度の近似式は以下の通りです。

tok/s ≒ メモリ帯域 (GB/s) ÷ モデルサイズ (GB)

メモリ帯域が広いほど速く、モデルが小さいほど速い。この式に具体的な数字を当てはめてみます。

デバイス メモリ帯域 モデル モデルサイズ 推定tok/s 報告されている実測値(参考)
iPhone 15 Pro(A17 Pro) 約50 GB/s Gemma 4 E4B (INT4) 約2.5GB 約20 10〜15
Pixel 9 Pro(Tensor G4) 約44 GB/s Gemma 4 E2B (INT4) 約1.3GB 約34 15〜20
Mac M2(16GB) 100 GB/s BitNet 2B (1.58bit) 0.4GB 約250 45(※CPU実行のため上限あり)
RTX 3090 936 GB/s Qwen3 8B (INT4) 約5GB 約187 約50(※オーバーヘッドあり)
補足: この式は理論上の上限値です。実際にはCPU/NPUの演算速度、キャッシュ効率、ソフトウェアのオーバーヘッドで30〜70%程度の効率に落ちます。それでも「メモリ帯域が広い + モデルが小さい = 速い」という基本法則は変わりません。M2でBitNetが45 tok/sも出るのは、0.4GBという極小モデルサイズのおかげです。

デバイス別:推定トークン生成速度

iPhone 15 Pro + E4B
12 tok/s
Pixel 9 Pro + E2B
18 tok/s
Mac M2 + BitNet 2B
45 tok/s
RTX 3090 + Qwen3 8B
50 tok/s

2026年4月の3大トピック

1. Gemma 4 E2B / E4B(Google)

2026年4月にGoogleが発表した、Edge専用のLLMです。名前の「E」はEffectiveの頭文字。E2Bが2Bパラメータ、E4Bが4Bパラメータのモデルです。

スペックと特徴:

  • E2B(2Bパラメータ): iPhone 14 Pro以降で対話速度が出る。推定15〜20 tok/s
  • E4B(4Bパラメータ): iPhone 15 Pro以降で対話速度が出る。推定10〜15 tok/s
  • マルチモーダル対応: テキストだけでなく、画像と音声も処理できる。スマホのカメラで撮った写真を見せて「これ何?」と聞ける
  • 完全オフライン動作: モデルをダウンロードすれば、以後はネット接続不要
  • Core ML変換対応: iOSのネイティブ推論エンジンで動くので、Appleデバイスとの相性が良い

試し方がとにかく簡単なのが特徴です。GoogleがリリースしたGoogle AI Edge Galleryというアプリ(iOS/Android両対応)をインストールするだけ。モデル選択画面でGemma 4 E2BかE4Bを選べば、すぐにチャットが始まります。Ollamaのインストールやターミナル操作は一切不要です。

RTX 3090でOllamaを動かしているときの手順(Ollamaインストール→モデルダウンロード→コマンド入力)と比べると、圧倒的にハードルが低い。スマホアプリを入れるだけなので、技術に詳しくない家族にも勧められるレベルです。

ポイント: Gemma 4 Edgeの最大の強みは「誰でもすぐ試せる」こと。AIに興味はあるけどPCの設定は苦手、という人にとって、初めてのローカルAI体験になりえます。

2. BitNet b1.58 2B4T(Microsoft)

Microsoftが開発した、GPU不要を本気で目指しているモデルです。技術的に非常に面白いアプローチをとっています。

1-bit量子化の仕組み:

通常のLLMは、パラメータを16bitや4bitの数値で表現します。BitNetはこれを極限まで削って、-1、0、+1の3値(1.58bit)だけで表現します。掛け算が不要になり、足し算と引き算だけで推論が動くため、GPUの浮動小数点演算ユニットが要りません。

数字で見る性能:

  • モデルサイズ: 2Bパラメータがわずか0.4GBに収まる。Gemma 4 E2Bの半分以下
  • Apple M2 CPUでの速度: 45 tok/s。これはかなり速く、ユーザー報告では「すぐ返ってくる」体感速度とされています
  • x86 CPUでの高速化: 従来比で2.37〜6.17倍の高速化を達成
  • GitHubスター: 25,000超え。開発者コミュニティの注目度が非常に高い

将来のロードマップも明示されていて、100Bパラメータのモデルまで1-bit量子化で動かす計画があります。もし100Bモデルが一般的なノートPCのCPUで動くようになれば、それは本当にゲームチェンジャーです。

ただし現時点では2Bモデルのみで、日本語の品質はまだ発展途上です。英語圏のベンチマークでは良い数字が出ていますが、日本語でのニュアンスの理解や自然な文章生成は、同サイズのGemma 4 E2Bのほうが上という評価が多いようです。

注意点: BitNetの45 tok/sという数字はM2 CPUでの計測値です。一般的なWindows PCのx86 CPUでは、CPUの世代やメモリ帯域によって速度が大きく変わるため、同じ体感になるとは限りません。

3. LiteRT-LM(Google)

2026年4月にGoogleが発表した、エッジデバイス向けのLLM推論フレームワークです。Gemma 4 Edgeがモデルそのものなのに対し、LiteRT-LMはモデルを動かすためのエンジンにあたります。

LiteRT-LMの狙いははっきりしていて、アプリ開発者がスマホアプリにLLM機能を組み込むためのツールです。たとえば「翻訳アプリにオフラインAI翻訳を追加する」「メモアプリにAI要約機能を付ける」といった用途を想定しています。

私たちエンドユーザーが直接触るものではありませんが、LiteRT-LMの登場は重要な意味を持ちます。アプリ開発者がLLMを組み込みやすくなることで、今後「AI機能付きのスマホアプリ」が急速に増えることが予想されます。しかもクラウドに送信しないオフラインAIとして。

比較表:エッジLLM vs GPU環境

ここからが本題です。スマホのエッジLLMと、自宅GPUのOllamaを並べて比較します。

項目 Gemma 4 E2B Gemma 4 E4B BitNet 2B Ollama 8B (GPU) Ollama 27B (GPU)
モデルサイズ 2B 4B 2B 8B 27B
必要ハードウェア iPhone 14 Pro〜 iPhone 15 Pro〜 M2 Mac / 一般PC RTX 3060 RTX 3090
速度 (tok/s) 15〜20 10〜15 45 (M2) / x86は環境依存 約50 約25〜30
日本語品質 そこそこ 実用的 発展途上 実用的 かなり良い
マルチモーダル 対応 対応 非対応 モデル次第 モデル次第
オフライン対応 完全対応 完全対応 完全対応 完全対応 完全対応
セットアップ難易度 アプリを入れるだけ アプリを入れるだけ ターミナル操作必要 Ollamaインストール Ollamaインストール
追加コスト 0円(手持ちスマホ) 0円(手持ちスマホ) 0円(手持ちPC) GPU 3万円〜 GPU 7万円〜

この表の見方: 左から右に行くほど、必要な投資が増える代わりにAIの賢さが上がります。エッジLLMの2B〜4Bモデルは手軽さが圧倒的ですが、日本語の品質や推論力では8B以上のGPUモデルに明確な差をつけられます。

コスパ散布図データ

追加コスト(横軸)とAI実用性スコア(縦軸)をプロットした散布図です。

[散布図データ]

| 構成 | 追加コスト(円) | AI実用性スコア(100点満点) |
|------|-----------------|---------------------------|
| iPhone + Gemma 4 E2B | 0 | 25 |
| iPhone + Gemma 4 E4B | 0 | 35 |
| Mac M4 Pro + BitNet 2B | 0 | 30 |
| Mac M4 Pro + Ollama 14B | 0 | 60 |
| PC + RTX 3060 + Ollama 8B | 30,000 | 45 |
| PC + RTX 5060 Ti 16GB + Ollama 14B | 90,000 | 65 |
| PC + RTX 3090 + Ollama 32B | 70,000(中古) | 85 |
| PC + RTX 5090 + Ollama 32B | 400,000 | 95 |
  • X軸: 追加コスト(円)。手持ちのスマホやPCで動かす場合は0円
  • Y軸: AI実用性スコア。日本語品質と生成速度を加味した総合評価(100点満点)
  • スコアの基準: 日本語の自然さ、質問理解力、推論の深さ、生成速度を総合的に評価
このグラフの読み方: 左上に近いほど「追加コストなしで賢いAIが使える」理想的なポジション。右上は「GPUに投資した分だけ賢さが得られる」ゾーンです。注目すべきは、左下にエッジLLM勢が固まっていて、コスト0円だがスコアは25〜35点にとどまること。一方、Mac M4 Pro + Ollama 14Bはコスト0円でスコア60点と、すでにMacを持っている人には非常にコスパが良いことがわかります。

じゃあGPU要らないの?

まだ要ります。

エッジLLMの2B〜4Bモデルと、GPUで動く14B〜32Bモデルでは、賢さに明確な壁があります。具体的には、以下のような差が出ます。

用途 エッジLLM(2B〜4B) GPU環境(14B〜32B)
短い質問への回答 実用的 快適
日本語の文章校正 簡単な修正ならOK 文脈を理解した修正が可能
長文の要約 短い文章なら可能 A4数ページの文書もいける
コード生成 簡単なスニペット程度 関数単位で生成可能
複雑な推論・分析 厳しい 14B以上でそこそこ実用的
マルチターンの会話 数往復で文脈を忘れる 長い会話でも比較的安定

2Bモデルと32Bモデルでは、パラメータ数に16倍の差があります。これは単純に「脳の大きさ」が16倍違うようなもので、知識量、推論力、日本語のニュアンス理解のすべてに影響します。

ただし、使い方によってはエッジLLMで十分な場面もあります。

  • 外出先で「この英語メールの要点だけ教えて」と聞く
  • オフライン環境で文章の誤字脱字をチェックする
  • 写真を見せて「この植物の名前は?」と聞く(Gemma 4 Edgeのマルチモーダル)
  • 簡単な翻訳をさっと確認する

こういった「ちょっとした質問」「軽い作業」には、スマホのエッジAIで実用的に対応できます。

私の結論は「使い分け」です。 外出先ではスマホのエッジAI、自宅ではRTX 3090でOllama。これが2026年時点の最も合理的な使い方だと思います。GPUが不要になる時代はまだ先ですが、「GPUがなくてもAIに触れられる時代」は確実に来ています。

今すぐ試す方法

iPhone / Androidユーザー(0円・5分で完了)

  1. Google AI Edge GalleryアプリをApp Store / Google Playからインストール
  2. アプリを開いて、モデル一覧からGemma 4 E2Bを選択
  3. モデルのダウンロードが完了したら、チャット画面で質問を入力

これだけです。PCの知識は不要。ダウンロード時にWi-Fi環境が必要ですが、一度ダウンロードすればオフラインで使えます。

iPhone 15 Pro以降を持っている方は、E4B(4Bモデル)も試してみてください。ベンチマーク報告を見る限り、E2Bより一段と賢くなるようです。

Macユーザー(0円・10分で完了)

  1. ollama.com からOllamaをインストール
  2. ターミナルを開いて ollama run gemma4 と入力
  3. モデルがダウンロードされ、チャットが始まる

M1以降のMacであれば、Ollamaで14Bクラスのモデルも快適に動きます。Apple Siliconのユニファイドメモリは、実はローカルAIとの相性がかなり良いです。

Windows PCユーザー(コスパ重視なら中古GPU)

ローカルAIを本格的に使うなら、RTX 3060 12GBの中古(2〜3万円)を買ってOllamaを入れるのが2026年4月時点で最もコスパが良い選択肢です。

  1. RTX 3060 12GBを中古ショップで購入(2〜3万円)
  2. PCに取り付け、ドライバーをインストール
  3. ollama.com からOllamaをインストール
  4. ターミナルで ollama run qwen3:8b と入力

12GBのVRAMがあれば、8Bモデルは余裕で動きますし、14Bモデルの一部も量子化版なら動作します。この価格帯で「実用的なローカルAI環境」が手に入るのは、中古GPUならではのメリットです。

詳しく知りたい方へ
ローカルAIの始め方は「自宅でAIチャットボットを動かしたい:予算別にできることガイド」で予算帯ごとに詳しく解説しています。GPU選びに迷ったらそちらも参考にしてください。

どのスマホなら動く? 最低スペックを整理する

「手持ちのスマホで動くのか?」は気になるところです。Google AI Edge Galleryの動作要件とモデルサイズから、スマホ別の対応状況を整理しました。

Android

Google AI Edge Galleryの動作要件: Android 12以降。実用的にはRAM 6GB以上が目安

RAM 動くモデル 体感 端末例(SIMフリー) 価格帯
4GB 動かない OSが3GB消費。残り1GBでは不足 Moto G Play、Redmi等の廉価機 1〜2万円
6GB Gemma 4 E2B(1.3GB) 動くが遅い。簡単な質問なら Pixel 7a、OPPO Reno 9A 2〜4万円
8GB Gemma 4 E4B(4B) 実用的。テキスト処理・質問応答 Pixel 8a、Galaxy A55 3〜5万円
12GB〜 Gemma 4 E4B(4B) 快適。長文処理もいける Pixel 9、Galaxy S24 6万円〜

この表の見方: RAM 8GB以上のスマホがあれば、E4B(4Bモデル)が実用速度で動きます。「AI用の2台目スマホ」を考えるなら、Pixel 8a(約5万円)あたりが最低ラインです。 SIMフリー版がAmazonや楽天で購入できます。

4GBのスマホでは実質動きません。「安いスマホでAIを試したい」という場合、最低6GB、できれば8GBのRAMが必要です。

注意: RAMの搭載量と実際に使える量は異なります。8GB搭載でも、OSやバックグラウンドアプリが3〜4GB使うため、AIモデルに使えるのは4〜5GB程度です。できるだけ他のアプリを閉じた状態で試してください。

iPhone

モデル チップ RAM 動くモデル 備考
iPhone 13以前 A15以前 4〜6GB E2Bがギリギリ 快適とは言えない
iPhone 14 Pro/Pro Max A16 6GB E2B(実用的) Core ML対応
iPhone 15 Pro/Pro Max A17 Pro 8GB E4B(実用的) NPU高性能
iPhone 16 Pro/Pro Max A18 Pro 8GB E4B(快適) 最も快適

iPhoneの場合、iPhone 15 Pro以降がE4Bの実用ラインです。iPhone 14 Proでも E2Bは動きます。

「AI用の2台目」は現実的か?

正直なところ、今メインで使っているスマホが2〜3年以内のモデルなら、まずそれで試すべきです。わざわざ2台目を買う必要はありません。

ただし、以下のような人には「AI専用のサブ機」が合うかもしれません:

  • メインスマホのバッテリーをAIに消費したくない(AI推論はバッテリーを食います)
  • オフライン専用のAI端末が欲しい(旅行、出張、災害対策)
  • 古いスマホ(RAM 4GB以下)がメインで、買い替えを検討している

その場合、Pixel 8a(SIMフリー / 約5万円 / 8GB RAM) が最もバランスが良い選択肢だと思います。Google純正なのでAI Edge Galleryとの相性も良く、アップデートも長期間サポートされます。

まとめ

2026年4月は、エッジLLMにとって転換点になりそうです。

  • Gemma 4 Edge: スマホアプリを入れるだけでAIが動く。マルチモーダル対応で、初めてのローカルAI体験として最適
  • BitNet b1.58: 1-bit量子化で0.4GBに収まる2Bモデル。M2 CPUで45 tok/sの高速動作。100Bモデルへの道筋が見えている
  • LiteRT-LM: アプリ開発者向けの推論フレームワーク。今後、AI機能付きスマホアプリが急増する布石

スマホで動くAIは、「おもちゃ」から「実用ツール」になりつつあります。ユーザー報告を見る限り、短い質問、簡単な翻訳、オフラインでの文章チェックくらいなら、もうスマホだけで事足りそうです。

ただし、本格的に使い込むならGPU環境がまだまだ強い。14B〜32Bモデルの日本語品質と推論力は、2B〜4Bモデルとは別次元です。「外ではスマホAI、家ではGPU AI」の使い分けが、2026年時点での最適解だと私は考えています。

エッジLLMの進化速度を見ていると、2〜3年後にはスマホで10B以上のモデルが動く時代が来るかもしれません。そうなったとき、GPU環境の位置づけがどう変わるのか。引き続き追いかけていきます。

記事で紹介した機材

【中古】ELSA GeForce RTX 3060 12GB

【中古】ELSA GeForce RTX 3060 12GB

¥29,800 (2026/5/1時点)

MSI GeForce RTX 5060 Ti 16GB VENTUS 2X OC PLUS

MSI GeForce RTX 5060 Ti 16GB VENTUS 2X OC PLUS

¥89,800 (2026/5/1時点)