スマホでAIが動く時代が来た:Gemma 4 Edge・BitNet・LiteRT-LMで変わるローカルAI
ふだん、GPUを2枚差したPCでOllamaを動かしています。ローカルAIの記事も書いてきましたし、自宅GPUでLLMを回す生活にはすっかり慣れました。
ところが2025〜2026年にかけて、スマホ向けのAIモデルやフレームワークが発表されました。Googleの「Gemma 4 Edge」、Microsoftの「BitNet b1.58」、そしてGoogleの推論フレームワーク「LiteRT-LM」。どれも共通しているのは、GPUなしで、スマホやノートPCのCPU/NPUだけでAIを動かすという方向性です。
結論としては、スマホAI(2B〜4B)はちょっとした質問や翻訳には十分使えるが、本格利用にはまだGPU環境が必要です。本記事では、Gemma 4 Edge・BitNet・LiteRT-LMの3技術を比較し、GPU環境との使い分けを整理します。
エッジLLMとは何か
まず用語の整理です。「エッジLLM」とは、クラウドのGPUサーバーではなく、手元のデバイス(スマホ、タブレット、ノートPC)のCPUやNPU(ニューラルプロセッシングユニット)で直接動く大規模言語モデルのことです。
従来のローカルAIは「自宅のゲーミングPCにGPUを積んで動かす」ものでした。エッジLLMはさらにその先、ポケットの中のスマホで動くというコンセプトです。
エッジLLMの最大のメリットは2つあります。
- データが外に出ない: クラウドに送信しないので、プライバシーが完全に守られる。機密文書の要約や個人的な相談も気兼ねなくできる
- ネット不要: 電波がないところでも動く。飛行機の中、山の中、災害時でもAIが使える
デメリットは明確で、モデルサイズが小さいこと。スマホのメモリ(6〜8GB)に載せる必要があるため、現状では2B〜4Bパラメータが上限です。GPU環境で動く14B〜32Bモデルと比べると、日本語の品質や推論の深さに差があります。
量子化の仕組み:なぜスマホで動くのか
エッジLLMを理解するうえで避けて通れないのが「量子化」です。これがスマホAIを可能にしている核心技術なので、少し踏み込んで説明します。
パラメータの精度を落としてモデルを小さくする
LLMのパラメータ(重み)は、もともとFP32(32ビット浮動小数点)で学習されます。1パラメータに32ビット = 4バイトを使うので、2Bモデルなら 2,000,000,000 × 4バイト = 約8GB。これではスマホのメモリに収まりません。
量子化は、この精度を段階的に落としてサイズを圧縮する技術です。
| 形式 | ビット数 | 1パラメータのサイズ | 2Bモデルの推定サイズ | 精度への影響 |
|---|---|---|---|---|
| FP32(学習時) | 32bit | 4バイト | 約8GB | 基準(100%) |
| FP16 / BF16 | 16bit | 2バイト | 約4GB | ほぼ劣化なし |
| INT8 | 8bit | 1バイト | 約2GB | わずかに劣化 |
| INT4(GPTQ/AWQ) | 4bit | 0.5バイト | 約1GB | 体感できる劣化あり |
| 1.58bit(BitNet) | 1.58bit | 約0.2バイト | 約0.4GB | 専用設計で補償 |
FP32の8GBが、量子化で0.4GBまで圧縮されます。20分の1です。8GBのスマホのメモリに余裕で載るサイズになります。
量子化レベル別:2Bモデルのサイズ比較
NPU vs GPU vs CPU:演算効率はどれくらい違うか
エッジLLMが動くプロセッサには、CPU、GPU、NPUの3種類があります。それぞれAI推論における効率(TOPS/W = 1ワットあたりの演算回数)がまったく違います。
| プロセッサ | 代表例 | AI演算性能 | 電力効率(TOPS/W) | 得意な処理 |
|---|---|---|---|---|
| CPU | Apple M2、Snapdragon 8 Gen 3 | 1〜5 TOPS | 約0.5〜1 TOPS/W | 汎用計算、整数演算 |
| GPU(モバイル) | Adreno 750、Apple GPU | 5〜15 TOPS | 約1〜3 TOPS/W | 並列浮動小数点演算 |
| NPU | Apple Neural Engine、Hexagon | 15〜45 TOPS | 約5〜15 TOPS/W | 行列演算に特化 |
| GPU(デスクトップ) | RTX 3090(参考) | 285 TOPS (INT8) | 約0.8 TOPS/W | 大規模並列処理 |
NPUの電力効率がGPUやCPUの5〜10倍であることに注目してください。NPUは演算性能自体はデスクトップGPUに遠く及びませんが、1ワットあたりのAI演算効率でははるかに優れています。 これがバッテリー駆動のスマホでAIを動かせる理由です。
RTX 3090は285 TOPSと桁違いですが、消費電力が350Wもあります。スマホのバッテリー(約15Wh)では数分で空になる計算です。NPUは15 TOPSと控えめですが、消費電力1〜3Wで動くので、スマホで数時間使い続けられます。
メモリ帯域がトークン生成速度を決める
スマホでAIを動かすとき、実はCPUやNPUの演算速度よりメモリ帯域がボトルネックになることが多いです。LLM推論では、トークンを生成するたびにモデル全体のパラメータをメモリから読み出す必要があるためです。
トークン生成速度の近似式は以下の通りです。
tok/s ≒ メモリ帯域 (GB/s) ÷ モデルサイズ (GB)
メモリ帯域が広いほど速く、モデルが小さいほど速い。この式に具体的な数字を当てはめてみます。
| デバイス | メモリ帯域 | モデル | モデルサイズ | 推定tok/s | 報告されている実測値(参考) |
|---|---|---|---|---|---|
| iPhone 15 Pro(A17 Pro) | 約50 GB/s | Gemma 4 E4B (INT4) | 約2.5GB | 約20 | 10〜15 |
| Pixel 9 Pro(Tensor G4) | 約44 GB/s | Gemma 4 E2B (INT4) | 約1.3GB | 約34 | 15〜20 |
| Mac M2(16GB) | 100 GB/s | BitNet 2B (1.58bit) | 0.4GB | 約250 | 45(※CPU実行のため上限あり) |
| RTX 3090 | 936 GB/s | Qwen3 8B (INT4) | 約5GB | 約187 | 約50(※オーバーヘッドあり) |
デバイス別:推定トークン生成速度
2026年4月の3大トピック
1. Gemma 4 E2B / E4B(Google)
2026年4月にGoogleが発表した、Edge専用のLLMです。名前の「E」はEffectiveの頭文字。E2Bが2Bパラメータ、E4Bが4Bパラメータのモデルです。
スペックと特徴:
- E2B(2Bパラメータ): iPhone 14 Pro以降で対話速度が出る。推定15〜20 tok/s
- E4B(4Bパラメータ): iPhone 15 Pro以降で対話速度が出る。推定10〜15 tok/s
- マルチモーダル対応: テキストだけでなく、画像と音声も処理できる。スマホのカメラで撮った写真を見せて「これ何?」と聞ける
- 完全オフライン動作: モデルをダウンロードすれば、以後はネット接続不要
- Core ML変換対応: iOSのネイティブ推論エンジンで動くので、Appleデバイスとの相性が良い
試し方がとにかく簡単なのが特徴です。GoogleがリリースしたGoogle AI Edge Galleryというアプリ(iOS/Android両対応)をインストールするだけ。モデル選択画面でGemma 4 E2BかE4Bを選べば、すぐにチャットが始まります。Ollamaのインストールやターミナル操作は一切不要です。
RTX 3090でOllamaを動かしているときの手順(Ollamaインストール→モデルダウンロード→コマンド入力)と比べると、圧倒的にハードルが低い。スマホアプリを入れるだけなので、技術に詳しくない家族にも勧められるレベルです。
2. BitNet b1.58 2B4T(Microsoft)
Microsoftが開発した、GPU不要を本気で目指しているモデルです。技術的に非常に面白いアプローチをとっています。
1-bit量子化の仕組み:
通常のLLMは、パラメータを16bitや4bitの数値で表現します。BitNetはこれを極限まで削って、-1、0、+1の3値(1.58bit)だけで表現します。掛け算が不要になり、足し算と引き算だけで推論が動くため、GPUの浮動小数点演算ユニットが要りません。
数字で見る性能:
- モデルサイズ: 2Bパラメータがわずか0.4GBに収まる。Gemma 4 E2Bの半分以下
- Apple M2 CPUでの速度: 45 tok/s。これはかなり速く、ユーザー報告では「すぐ返ってくる」体感速度とされています
- x86 CPUでの高速化: 従来比で2.37〜6.17倍の高速化を達成
- GitHubスター: 25,000超え。開発者コミュニティの注目度が非常に高い
将来のロードマップも明示されていて、100Bパラメータのモデルまで1-bit量子化で動かす計画があります。もし100Bモデルが一般的なノートPCのCPUで動くようになれば、それは本当にゲームチェンジャーです。
ただし現時点では2Bモデルのみで、日本語の品質はまだ発展途上です。英語圏のベンチマークでは良い数字が出ていますが、日本語でのニュアンスの理解や自然な文章生成は、同サイズのGemma 4 E2Bのほうが上という評価が多いようです。
3. LiteRT-LM(Google)
2026年4月にGoogleが発表した、エッジデバイス向けのLLM推論フレームワークです。Gemma 4 Edgeがモデルそのものなのに対し、LiteRT-LMはモデルを動かすためのエンジンにあたります。
LiteRT-LMの狙いははっきりしていて、アプリ開発者がスマホアプリにLLM機能を組み込むためのツールです。たとえば「翻訳アプリにオフラインAI翻訳を追加する」「メモアプリにAI要約機能を付ける」といった用途を想定しています。
私たちエンドユーザーが直接触るものではありませんが、LiteRT-LMの登場は重要な意味を持ちます。アプリ開発者がLLMを組み込みやすくなることで、今後「AI機能付きのスマホアプリ」が急速に増えることが予想されます。しかもクラウドに送信しないオフラインAIとして。
比較表:エッジLLM vs GPU環境
ここからが本題です。スマホのエッジLLMと、自宅GPUのOllamaを並べて比較します。
| 項目 | Gemma 4 E2B | Gemma 4 E4B | BitNet 2B | Ollama 8B (GPU) | Ollama 27B (GPU) |
|---|---|---|---|---|---|
| モデルサイズ | 2B | 4B | 2B | 8B | 27B |
| 必要ハードウェア | iPhone 14 Pro〜 | iPhone 15 Pro〜 | M2 Mac / 一般PC | RTX 3060 | RTX 3090 |
| 速度 (tok/s) | 15〜20 | 10〜15 | 45 (M2) / x86は環境依存 | 約50 | 約25〜30 |
| 日本語品質 | そこそこ | 実用的 | 発展途上 | 実用的 | かなり良い |
| マルチモーダル | 対応 | 対応 | 非対応 | モデル次第 | モデル次第 |
| オフライン対応 | 完全対応 | 完全対応 | 完全対応 | 完全対応 | 完全対応 |
| セットアップ難易度 | アプリを入れるだけ | アプリを入れるだけ | ターミナル操作必要 | Ollamaインストール | Ollamaインストール |
| 追加コスト | 0円(手持ちスマホ) | 0円(手持ちスマホ) | 0円(手持ちPC) | GPU 3万円〜 | GPU 7万円〜 |
この表の見方: 左から右に行くほど、必要な投資が増える代わりにAIの賢さが上がります。エッジLLMの2B〜4Bモデルは手軽さが圧倒的ですが、日本語の品質や推論力では8B以上のGPUモデルに明確な差をつけられます。
コスパ散布図データ
追加コスト(横軸)とAI実用性スコア(縦軸)をプロットした散布図です。
[散布図データ]
| 構成 | 追加コスト(円) | AI実用性スコア(100点満点) | |------|-----------------|---------------------------| | iPhone + Gemma 4 E2B | 0 | 25 | | iPhone + Gemma 4 E4B | 0 | 35 | | Mac M4 Pro + BitNet 2B | 0 | 30 | | Mac M4 Pro + Ollama 14B | 0 | 60 | | PC + RTX 3060 + Ollama 8B | 30,000 | 45 | | PC + RTX 5060 Ti 16GB + Ollama 14B | 90,000 | 65 | | PC + RTX 3090 + Ollama 32B | 70,000(中古) | 85 | | PC + RTX 5090 + Ollama 32B | 400,000 | 95 |
- X軸: 追加コスト(円)。手持ちのスマホやPCで動かす場合は0円
- Y軸: AI実用性スコア。日本語品質と生成速度を加味した総合評価(100点満点)
- スコアの基準: 日本語の自然さ、質問理解力、推論の深さ、生成速度を総合的に評価
じゃあGPU要らないの?
まだ要ります。
エッジLLMの2B〜4Bモデルと、GPUで動く14B〜32Bモデルでは、賢さに明確な壁があります。具体的には、以下のような差が出ます。
| 用途 | エッジLLM(2B〜4B) | GPU環境(14B〜32B) |
|---|---|---|
| 短い質問への回答 | 実用的 | 快適 |
| 日本語の文章校正 | 簡単な修正ならOK | 文脈を理解した修正が可能 |
| 長文の要約 | 短い文章なら可能 | A4数ページの文書もいける |
| コード生成 | 簡単なスニペット程度 | 関数単位で生成可能 |
| 複雑な推論・分析 | 厳しい | 14B以上でそこそこ実用的 |
| マルチターンの会話 | 数往復で文脈を忘れる | 長い会話でも比較的安定 |
2Bモデルと32Bモデルでは、パラメータ数に16倍の差があります。これは単純に「脳の大きさ」が16倍違うようなもので、知識量、推論力、日本語のニュアンス理解のすべてに影響します。
ただし、使い方によってはエッジLLMで十分な場面もあります。
- 外出先で「この英語メールの要点だけ教えて」と聞く
- オフライン環境で文章の誤字脱字をチェックする
- 写真を見せて「この植物の名前は?」と聞く(Gemma 4 Edgeのマルチモーダル)
- 簡単な翻訳をさっと確認する
こういった「ちょっとした質問」「軽い作業」には、スマホのエッジAIで実用的に対応できます。
私の結論は「使い分け」です。 外出先ではスマホのエッジAI、自宅ではRTX 3090でOllama。これが2026年時点の最も合理的な使い方だと思います。GPUが不要になる時代はまだ先ですが、「GPUがなくてもAIに触れられる時代」は確実に来ています。
今すぐ試す方法
iPhone / Androidユーザー(0円・5分で完了)
- Google AI Edge GalleryアプリをApp Store / Google Playからインストール
- アプリを開いて、モデル一覧からGemma 4 E2Bを選択
- モデルのダウンロードが完了したら、チャット画面で質問を入力
これだけです。PCの知識は不要。ダウンロード時にWi-Fi環境が必要ですが、一度ダウンロードすればオフラインで使えます。
iPhone 15 Pro以降を持っている方は、E4B(4Bモデル)も試してみてください。ベンチマーク報告を見る限り、E2Bより一段と賢くなるようです。
Macユーザー(0円・10分で完了)
- ollama.com からOllamaをインストール
- ターミナルを開いて
ollama run gemma4と入力 - モデルがダウンロードされ、チャットが始まる
M1以降のMacであれば、Ollamaで14Bクラスのモデルも快適に動きます。Apple Siliconのユニファイドメモリは、実はローカルAIとの相性がかなり良いです。
Windows PCユーザー(コスパ重視なら中古GPU)
ローカルAIを本格的に使うなら、RTX 3060 12GBの中古(2〜3万円)を買ってOllamaを入れるのが2026年4月時点で最もコスパが良い選択肢です。
- RTX 3060 12GBを中古ショップで購入(2〜3万円)
- PCに取り付け、ドライバーをインストール
- ollama.com からOllamaをインストール
- ターミナルで
ollama run qwen3:8bと入力
12GBのVRAMがあれば、8Bモデルは余裕で動きますし、14Bモデルの一部も量子化版なら動作します。この価格帯で「実用的なローカルAI環境」が手に入るのは、中古GPUならではのメリットです。
ローカルAIの始め方は「自宅でAIチャットボットを動かしたい:予算別にできることガイド」で予算帯ごとに詳しく解説しています。GPU選びに迷ったらそちらも参考にしてください。
どのスマホなら動く? 最低スペックを整理する
「手持ちのスマホで動くのか?」は気になるところです。Google AI Edge Galleryの動作要件とモデルサイズから、スマホ別の対応状況を整理しました。
Android
Google AI Edge Galleryの動作要件: Android 12以降。実用的にはRAM 6GB以上が目安
| RAM | 動くモデル | 体感 | 端末例(SIMフリー) | 価格帯 |
|---|---|---|---|---|
| 4GB | 動かない | OSが3GB消費。残り1GBでは不足 | Moto G Play、Redmi等の廉価機 | 1〜2万円 |
| 6GB | Gemma 4 E2B(1.3GB) | 動くが遅い。簡単な質問なら | Pixel 7a、OPPO Reno 9A | 2〜4万円 |
| 8GB | Gemma 4 E4B(4B) | 実用的。テキスト処理・質問応答 | Pixel 8a、Galaxy A55 | 3〜5万円 |
| 12GB〜 | Gemma 4 E4B(4B) | 快適。長文処理もいける | Pixel 9、Galaxy S24 | 6万円〜 |
この表の見方: RAM 8GB以上のスマホがあれば、E4B(4Bモデル)が実用速度で動きます。「AI用の2台目スマホ」を考えるなら、Pixel 8a(約5万円)あたりが最低ラインです。 SIMフリー版がAmazonや楽天で購入できます。
4GBのスマホでは実質動きません。「安いスマホでAIを試したい」という場合、最低6GB、できれば8GBのRAMが必要です。
iPhone
| モデル | チップ | RAM | 動くモデル | 備考 |
|---|---|---|---|---|
| iPhone 13以前 | A15以前 | 4〜6GB | E2Bがギリギリ | 快適とは言えない |
| iPhone 14 Pro/Pro Max | A16 | 6GB | E2B(実用的) | Core ML対応 |
| iPhone 15 Pro/Pro Max | A17 Pro | 8GB | E4B(実用的) | NPU高性能 |
| iPhone 16 Pro/Pro Max | A18 Pro | 8GB | E4B(快適) | 最も快適 |
iPhoneの場合、iPhone 15 Pro以降がE4Bの実用ラインです。iPhone 14 Proでも E2Bは動きます。
「AI用の2台目」は現実的か?
正直なところ、今メインで使っているスマホが2〜3年以内のモデルなら、まずそれで試すべきです。わざわざ2台目を買う必要はありません。
ただし、以下のような人には「AI専用のサブ機」が合うかもしれません:
- メインスマホのバッテリーをAIに消費したくない(AI推論はバッテリーを食います)
- オフライン専用のAI端末が欲しい(旅行、出張、災害対策)
- 古いスマホ(RAM 4GB以下)がメインで、買い替えを検討している
その場合、Pixel 8a(SIMフリー / 約5万円 / 8GB RAM) が最もバランスが良い選択肢だと思います。Google純正なのでAI Edge Galleryとの相性も良く、アップデートも長期間サポートされます。
まとめ
2026年4月は、エッジLLMにとって転換点になりそうです。
- Gemma 4 Edge: スマホアプリを入れるだけでAIが動く。マルチモーダル対応で、初めてのローカルAI体験として最適
- BitNet b1.58: 1-bit量子化で0.4GBに収まる2Bモデル。M2 CPUで45 tok/sの高速動作。100Bモデルへの道筋が見えている
- LiteRT-LM: アプリ開発者向けの推論フレームワーク。今後、AI機能付きスマホアプリが急増する布石
スマホで動くAIは、「おもちゃ」から「実用ツール」になりつつあります。ユーザー報告を見る限り、短い質問、簡単な翻訳、オフラインでの文章チェックくらいなら、もうスマホだけで事足りそうです。
ただし、本格的に使い込むならGPU環境がまだまだ強い。14B〜32Bモデルの日本語品質と推論力は、2B〜4Bモデルとは別次元です。「外ではスマホAI、家ではGPU AI」の使い分けが、2026年時点での最適解だと私は考えています。
エッジLLMの進化速度を見ていると、2〜3年後にはスマホで10B以上のモデルが動く時代が来るかもしれません。そうなったとき、GPU環境の位置づけがどう変わるのか。引き続き追いかけていきます。










ディスカッション
コメント一覧
まだ、コメントがありません