スマホでAIが動く時代が来た：Gemma 4 Edge・BitNet・LiteRT-LMで変わるローカルAI

2026年6月9日2026年7月7日

本ページは広告（アフィリエイトプログラム）を含みます。詳しくはプライバシーポリシーをご覧ください。

ふだん、GPUを2枚差したPCでOllamaを動かしています。ローカルAIの記事も書いてきましたし、自宅GPUでLLM（大規模言語モデル。ChatGPTのように文章を生成するAIの本体）を回す生活にはすっかり慣れました。

ところが2025〜2026年にかけて、スマホ向けのAIモデルやフレームワークが相次いで発表されました。Googleの「Gemma 4 Edge」、Microsoftの「BitNet b1.58」、そしてGoogleの推論（AIが質問に対して答えを計算して出す処理）フレームワーク「LiteRT-LM」。どれも共通しているのは、GPUなしで、スマホやノートPCのCPU/NPUだけでAIを動かすという方向性です。

結論を先に書くと、スマホAI（2B〜4B。Bはbillion＝10億で、AIの賢さを左右する数値「パラメータ」の個数を表します）はちょっとした質問や翻訳になら十分使えるものの、本格利用にはまだGPU環境が要ります。本記事では、Gemma 4 Edge・BitNet・LiteRT-LMの3技術を比較し、GPU環境との使い分けを整理しました。

1. エッジLLMとは何か
2. 量子化の仕組み：なぜスマホで動くのか
3. 2026年4月の3大トピック
4. 比較表：エッジLLM vs GPU環境
5. コスパ散布図データ
- 5.1. [散布図データ]
6. じゃあGPU要らないの？
7. 今すぐ試す方法
8. どのスマホなら動く？最低スペックを整理する
9. まとめ
- 9.1. 記事で紹介した機材
10. 参考にしたサイト

エッジLLMとは何か

まず用語を整理します。「エッジLLM」とは、クラウドのGPUサーバーではなく、手元のデバイス（スマホ、タブレット、ノートPC）のCPUやNPU（ニューラルプロセッシングユニット）で直接動く大規模言語モデルを指します。

従来のローカルAIは「自宅のゲーミングPCにGPUを積んで動かす」ものでした。エッジLLMはさらにその先、ポケットの中のスマホで動くというコンセプトです。

エッジLLMのメリットは大きく2つあります。

データが外に出ない: クラウドに送信しないので、プライバシーが完全に守られる。機密文書の要約や個人的な相談も気兼ねなくできる
ネット不要: 電波がないところでも動く。飛行機の中、山の中、災害時でもAIが使える

デメリットも明確で、モデルサイズが小さい点が挙げられます。スマホのメモリ（6〜8GB）に載せる必要があるため、現状では2B〜4Bパラメータが上限です。GPU環境で動く14B〜32Bモデルと比べると、日本語の品質や推論の深さに差があります。

量子化の仕組み：なぜスマホで動くのか

エッジLLMを理解するうえで避けて通れないのが「量子化」です。これがスマホAIを可能にしている核心技術なので、少し踏み込んで説明します。

パラメータの精度を落としてモデルを小さくする

LLMのパラメータ（重み）は、もともとFP32（32ビット浮動小数点）で学習されます。1パラメータに32ビット = 4バイトを使うので、2Bモデルなら 2,000,000,000 × 4バイト = 約8GB。これではスマホのメモリに収まりません。

量子化は、この精度を段階的に落としてサイズを圧縮する技術です。

形式	ビット数	1パラメータのサイズ	2Bモデルの推定サイズ	精度への影響
FP32（学習時）	32bit	4バイト	約8GB	基準（100%）
FP16 / BF16	16bit	2バイト	約4GB	ほぼ劣化なし
INT8	8bit	1バイト	約2GB	わずかに劣化
INT4（GPTQ/AWQ）	4bit	0.5バイト	約1GB	体感できる劣化あり
1.58bit（BitNet）	1.58bit	約0.2バイト	約0.4GB	専用設計で補償

FP32の8GBが、量子化で0.4GBまで圧縮される計算です。実に20分の1。8GBのスマホのメモリにも余裕で載ります。

量子化レベル別：2Bモデルのサイズ比較

FP32（学習時）

8 GB

FP16

4 GB

INT8

2 GB

INT4（GPTQ/AWQ）

1 GB

BitNet 1.58bit

0.4 GB

ひとことで言うと: 量子化とは「数値の解像度を下げて、ファイルサイズを劇的に減らす」技術です。写真をPNG（高品質・大容量）からJPEG（やや劣化・小容量）に変換するのに似ています。BitNetの1.58bitは、極限までJPEG圧縮したようなもの。ただし最初からその圧縮を前提に設計されているため、品質の落ち方が穏やかです。

NPU vs GPU vs CPU：演算効率はどれくらい違うか

エッジLLMが動くプロセッサには、CPU、GPU、NPUの3種類があります。それぞれAI推論における効率（TOPS/W = 1ワットあたりの演算回数）がまったく違います。

プロセッサ	代表例	AI演算性能	電力効率（TOPS/W）	得意な処理
CPU	Apple M2、Snapdragon 8 Gen 3	1〜5 TOPS	約0.5〜1 TOPS/W	汎用計算、整数演算
GPU（モバイル）	Adreno 750、Apple GPU	5〜15 TOPS	約1〜3 TOPS/W	並列浮動小数点演算
NPU	Apple Neural Engine、Hexagon	15〜45 TOPS	約5〜15 TOPS/W	行列演算に特化
GPU（デスクトップ）	RTX 3090（参考）	285 TOPS (INT8)	約0.8 TOPS/W	大規模並列処理

注目してほしいのは、NPUの電力効率がGPUやCPUの5〜10倍に達する点です。NPUは演算性能そのものではデスクトップGPUに遠く及びませんが、1ワットあたりのAI演算効率でははるかに優れています。 これがバッテリー駆動のスマホでAIを動かせる理由です。

RTX 3090は285 TOPSと桁違いですが、消費電力が350Wもあります。スマホのバッテリー（約15Wh）なら数分で空になる計算です。NPUは15 TOPSと控えめなかわりに、消費電力1〜3Wで動くので、スマホで数時間使い続けられます。

メモリ帯域がトークン生成速度を決める

スマホでAIを動かすとき、実はCPUやNPUの演算速度よりメモリ帯域がボトルネックになる場面が多くあります。LLM推論では、トークン（AIが文章を扱う最小単位。単語や文字の断片にあたります）を生成するたびにモデル全体のパラメータをメモリから読み出すためです。

トークン生成速度の近似式は次のとおりです。

tok/s ≒ メモリ帯域 (GB/s) ÷ モデルサイズ (GB)

メモリ帯域が広いほど速く、モデルが小さいほど速い。この式に具体的な数字を当てはめてみます。

デバイス	メモリ帯域	モデル	モデルサイズ	推定tok/s	報告されている実測値（参考）
iPhone 15 Pro（A17 Pro）	約50 GB/s	Gemma 4 E4B (INT4)	約2.5GB	約20	10〜15
Pixel 9 Pro（Tensor G4）	約44 GB/s	Gemma 4 E2B (INT4)	約1.3GB	約34	15〜20
Mac M2（16GB）	100 GB/s	BitNet 2B (1.58bit)	0.4GB	約250	45（※CPU実行のため上限あり）
RTX 3090	936 GB/s	Qwen3 8B (INT4)	約5GB	約187	約50（※オーバーヘッドあり）

補足: この式はあくまで理論上の上限値です。実際にはCPU/NPUの演算速度、キャッシュ効率、ソフトウェアのオーバーヘッドで30〜70%程度の効率に落ちます。それでも「メモリ帯域が広い + モデルが小さい = 速い」という基本法則は変わりません。M2でBitNetが45 tok/s出るのは、0.4GBという極小モデルサイズのおかげです。

デバイス別：推定トークン生成速度

iPhone 15 Pro + E4B

12 tok/s

Pixel 9 Pro + E2B

18 tok/s

Mac M2 + BitNet 2B

45 tok/s

RTX 3090 + Qwen3 8B

50 tok/s

2026年4月の3大トピック

1. Gemma 4 E2B / E4B（Google）

2026年4月にGoogleが発表した、Edge専用のLLMです。名前の「E」はEffective（実効）の頭文字。E2Bが2Bパラメータ、E4Bが4Bパラメータのモデルにあたります。

スペックと特徴:

E2B（2Bパラメータ）: iPhone 14 Pro以降で対話速度が出る。推定15〜20 tok/s
E4B（4Bパラメータ）: iPhone 15 Pro以降で対話速度が出る。推定10〜15 tok/s
マルチモーダル対応: テキストだけでなく、画像や音声も処理できる。スマホのカメラで撮った写真を見せて「これ何？」と聞ける
完全オフライン動作: モデルをダウンロードすれば、以後はネット接続が要らない
Core ML変換対応: iOSのネイティブ推論エンジンで動くので、Appleデバイスとの相性が良い

なにより試し方がとにかく簡単です。GoogleがリリースしたGoogle AI Edge Galleryというアプリ（iOS/Android両対応）をインストールするだけ。モデル選択画面でGemma 4 E2BかE4Bを選べば、すぐにチャットが始まります。Ollamaのインストールやターミナル操作は一切不要です。

RTX 3090でOllamaを動かすときの手順（Ollamaインストール→モデルダウンロード→コマンド入力）と比べれば、ハードルは圧倒的に低い。スマホアプリを入れるだけなので、技術に詳しくない家族にも勧められます。

ポイント: Gemma 4 Edgeの最大の強みは「誰でもすぐ試せる」こと。AIに興味はあるけれどPCの設定は苦手、という人にとって、初めてのローカルAI体験になりえます。

2. BitNet b1.58 2B4T（Microsoft）

Microsoftが開発した、GPU不要を本気で目指すモデルです。技術的に非常に面白いアプローチをとっています。

1-bit量子化の仕組み:

通常のLLMは、パラメータを16bitや4bitの数値で表現します。BitNetはこれを極限まで削り、-1、0、+1の3値（1.58bit）だけで表現します。掛け算が不要になり、足し算と引き算だけで推論が動くため、GPUの浮動小数点演算ユニットが要りません。

数字で見る性能:

モデルサイズ: 公式の評価指標で非埋め込み部のメモリは約0.4GB。実際にダウンロードして動かす際の全体フットプリントでも約1.2GBに収まり、4GB RAMのスマホでも動かせる
Apple M2 CPUでの速度: 45 tok/s。これはかなり速く、ユーザー報告では「すぐ返ってくる」体感とされています
x86 CPUでの高速化: 従来比で2.37〜6.17倍の高速化を達成
GitHubスター: 公開からほどなく2万5,000を超え、その後も伸び続けている。開発者コミュニティの注目度は非常に高い

将来のロードマップも明示されていて、100Bパラメータ級のモデルまで1-bit量子化でCPU動作させる構想が語られています。もし100Bモデルが一般的なノートPCのCPUで動くようになれば、それは本当のゲームチェンジャーでしょう。

ただし現時点では2Bモデルのみで、日本語の品質はまだ発展途上です。公式の説明でも英語以外の言語は限定的とされており、英語圏のベンチマークでは良い数字が出ているものの、日本語のニュアンス理解や自然な文章生成は同サイズのGemma 4 E2Bのほうが上、という評価が目立ちます。

注意点: BitNetの45 tok/sという数字はM2 CPUでの計測値です。一般的なWindows PCのx86 CPUでは、CPUの世代やメモリ帯域によって速度が大きく変わるため、同じ体感になるとは限りません。

3. LiteRT-LM（Google）

2026年4月にGoogleが発表した、エッジデバイス向けのLLM推論フレームワークです。Gemma 4 Edgeがモデルそのものなのに対し、LiteRT-LMはモデルを動かすためのエンジンにあたります。Android・iOS・Web・デスクトップ・Raspberry Piまで横断して動き、GoogleがChromeやPixel製品でGemini Nanoを動かしている実績のある基盤でもあります。

LiteRT-LMの狙いははっきりしていて、アプリ開発者がスマホアプリにLLM機能を組み込むためのツールです。たとえば「翻訳アプリにオフラインAI翻訳を追加する」「メモアプリにAI要約機能を付ける」といった用途を想定しています。

私たちエンドユーザーが直接触るものではありません。それでもLiteRT-LMの登場は重要な意味を持ちます。開発者がLLMを組み込みやすくなれば、今後「AI機能付きのスマホアプリ」が急速に増えるはずです。しかもクラウドに送信しないオフラインAIとして。

比較表：エッジLLM vs GPU環境

ここからが本題です。スマホのエッジLLMと、自宅GPUのOllamaを並べて比較します。

項目	Gemma 4 E2B	Gemma 4 E4B	BitNet 2B	Ollama 8B (GPU)	Ollama 27B (GPU)
モデルサイズ	2B	4B	2B	8B	27B
必要ハードウェア	iPhone 14 Pro〜	iPhone 15 Pro〜	M2 Mac / 一般PC	RTX 3060	RTX 3090
速度 (tok/s)	15〜20	10〜15	45 (M2) / x86は環境依存	約50	約25〜30
日本語品質	そこそこ	実用的	発展途上	実用的	かなり良い
マルチモーダル	対応	対応	非対応	モデル次第	モデル次第
オフライン対応	完全対応	完全対応	完全対応	完全対応	完全対応
セットアップ難易度	アプリを入れるだけ	アプリを入れるだけ	ターミナル操作必要	Ollamaインストール	Ollamaインストール
追加コスト	0円（手持ちスマホ）	0円（手持ちスマホ）	0円（手持ちPC）	GPU 3万円〜	GPU 7万円〜

この表の見方: 左から右に行くほど、必要な投資が増えるかわりにAIの賢さが上がります。エッジLLMの2B〜4Bモデルは手軽さで圧倒しますが、日本語の品質や推論力では8B以上のGPUモデルに明確な差をつけられます。

コスパ散布図データ

追加コスト（横軸）とAI実用性スコア（縦軸）をプロットした散布図です。

[散布図データ]

| 構成 | 追加コスト（円） | AI実用性スコア（100点満点） |
|------|-----------------|---------------------------|
| iPhone + Gemma 4 E2B | 0 | 25 |
| iPhone + Gemma 4 E4B | 0 | 35 |
| Mac M4 Pro + BitNet 2B | 0 | 30 |
| Mac M4 Pro + Ollama 14B | 0 | 60 |
| PC + RTX 3060 + Ollama 8B | 30,000 | 45 |
| PC + RTX 5060 Ti 16GB + Ollama 14B | 90,000 | 65 |
| PC + RTX 3090 + Ollama 32B | 70,000（中古） | 85 |
| PC + RTX 5090 + Ollama 32B | 400,000 | 95 |

X軸: 追加コスト（円）。手持ちのスマホやPCで動かす場合は0円
Y軸: AI実用性スコア。日本語品質と生成速度を加味した総合評価（100点満点）
スコアの基準: 日本語の自然さ、質問理解力、推論の深さ、生成速度を総合的に評価

このグラフの読み方: 左上に近いほど「追加コストなしで賢いAIが使える」理想的なポジションです。右上は「GPUに投資した分だけ賢さが得られる」ゾーン。注目したいのは、左下にエッジLLM勢が固まっていて、コスト0円ながらスコアは25〜35点にとどまる点です。対してMac M4 Pro + Ollama 14Bはコスト0円でスコア60点と、すでにMacを持っている人にはコスパがかなり良いとわかります。

じゃあGPU要らないの？

まだ要ります。

エッジLLMの2B〜4Bモデルと、GPUで動く14B〜32Bモデルでは、賢さに明確な壁があります。具体的には、次のような差が出ます。

用途	エッジLLM（2B〜4B）	GPU環境（14B〜32B）
短い質問への回答	実用的	快適
日本語の文章校正	簡単な修正ならOK	文脈を理解した修正が可能
長文の要約	短い文章なら可能	A4数ページの文書もいける
コード生成	簡単なスニペット程度	関数単位で生成可能
複雑な推論・分析	厳しい	14B以上でそこそこ実用的
マルチターンの会話	数往復で文脈を忘れる	長い会話でも比較的安定

2Bモデルと32Bモデルでは、パラメータ数に16倍の差があります。これは単純に「脳の大きさ」が16倍違うようなもので、知識量、推論力、日本語のニュアンス理解のすべてに響きます。

とはいえ、使い方によってはエッジLLMで十分な場面もあります。

外出先で「この英語メールの要点だけ教えて」と聞く
オフライン環境で文章の誤字脱字をチェックする
写真を見せて「この植物の名前は？」と聞く（Gemma 4 Edgeのマルチモーダル）
簡単な翻訳をさっと確認する

こうした「ちょっとした質問」「軽い作業」になら、スマホのエッジAIで実用的に対応できます。

私の結論は「使い分け」です。 外出先ではスマホのエッジAI、自宅ではRTX 3090でOllama。これが2026年時点の最も合理的な使い方だと考えています。GPUが不要になる時代はまだ先ですが、「GPUがなくてもAIに触れられる時代」は確実に来ています。

今すぐ試す方法

iPhone / Androidユーザー（0円・5分で完了）

Google AI Edge GalleryアプリをApp Store / Google Playからインストール
アプリを開いて、モデル一覧からGemma 4 E2Bを選択
モデルのダウンロードが終わったら、チャット画面で質問を入力

手順はこれだけです。PCの知識は要りません。ダウンロード時にWi-Fi環境が必要ですが、一度落としてしまえばオフラインで使えます。

iPhone 15 Pro以降を持っている方は、E4B（4Bモデル）も試してみてください。ベンチマーク報告を見る限り、E2Bより一段と賢くなるようです。

Macユーザー（0円・10分で完了）

ollama.com からOllamaをインストール
ターミナルを開いて ollama run gemma4 と入力
モデルがダウンロードされ、チャットが始まる

M1以降のMacであれば、Ollamaで14Bクラスのモデルも快適に動きます。Apple Siliconのユニファイドメモリは、実はローカルAIとの相性がかなり良いのです。

Windows PCユーザー（コスパ重視なら中古GPU）

ローカルAIを本格的に使うなら、RTX 3060 12GBの中古（2〜3万円）を買ってOllamaを入れるのが2026年4月時点で最もコスパが良い選択肢です。

RTX 3060 12GBを中古ショップで購入（2〜3万円）
PCに取り付け、ドライバーをインストール
ollama.com からOllamaをインストール
ターミナルで ollama run qwen3:8b と入力

12GBのVRAMがあれば、8Bモデルは余裕で動きますし、14Bモデルの一部も量子化版なら動作します。この価格帯で「実用的なローカルAI環境」が手に入るのは、中古GPUならではのメリットです。

詳しく知りたい方へ
ローカルAIの始め方は「自宅でAIチャットボットを動かしたい：予算別にできることガイド」で予算帯ごとに詳しく解説しています。GPU選びに迷ったらそちらも参考にしてください。

どのスマホなら動く？最低スペックを整理する

「手持ちのスマホで動くのか？」は気になるところです。Google AI Edge Galleryの動作要件とモデルサイズから、スマホ別の対応状況を整理しました。

Android

Google AI Edge Galleryの動作要件: Android 12以降。実用的にはRAM 6GB以上が目安

RAM	動くモデル	体感	端末例（SIMフリー）	価格帯
4GB	動かない	OSが3GB消費。残り1GBでは不足	Moto G Play、Redmi等の廉価機	1〜2万円
6GB	Gemma 4 E2B（1.3GB）	動くが遅い。簡単な質問なら	Pixel 7a、OPPO Reno 9A	2〜4万円
8GB	Gemma 4 E4B（4B）	実用的。テキスト処理・質問応答	Pixel 8a、Galaxy A55	3〜5万円
12GB〜	Gemma 4 E4B（4B）	快適。長文処理もいける	Pixel 9、Galaxy S24	6万円〜

この表の見方: RAM 8GB以上のスマホがあれば、E4B（4Bモデル）が実用速度で動きます。「AI用の2台目スマホ」を考えるなら、Pixel 8a（約5万円）あたりが最低ラインです。 SIMフリー版がAmazonや楽天で購入できます。

4GBのスマホでは実質動きません。「安いスマホでAIを試したい」場合でも、最低6GB、できれば8GBのRAMを目安にしてください。

注意: RAMの搭載量と実際に使える量は別物です。8GB搭載でも、OSやバックグラウンドアプリが3〜4GB使うため、AIモデルに回せるのは4〜5GB程度。できるだけ他のアプリを閉じた状態で試してください。

iPhone

モデル	チップ	RAM	動くモデル	備考
iPhone 13以前	A15以前	4〜6GB	E2Bがギリギリ	快適とは言えない
iPhone 14 Pro/Pro Max	A16	6GB	E2B（実用的）	Core ML対応
iPhone 15 Pro/Pro Max	A17 Pro	8GB	E4B（実用的）	NPU高性能
iPhone 16 Pro/Pro Max	A18 Pro	8GB	E4B（快適）	最も快適