自宅でAIチャットボットを動かしたい：予算別にできることガイド

2026年4月12日

私はメインのPCにGPUを2枚差して、ローカルでも生成AIを動かしています。ChatGPTやClaudeも使いますが、仕事の資料を要約させるときに「これ、外部に送って大丈夫かな」と気になることが増えてきました。月額料金もじわじわ効いてきます。そこで、自宅のGPUだけでどこまでAIチャットボットが使えるのか、予算帯ごとに整理してみました。 ※ この記事では、一般的なデスクトップPCに搭載できるコンシューマー向けGPU（NVIDIA GeForce / AMD Radeonシリーズ）を対象にしています。NVIDIA A100やH100といったサーバー・データセンター向けのGPU（VRAM 40〜80GB、価格100万円〜）は扱っていません。そのため記事内のVRAM上限は32GBまでとなっています。

1. クラウドAIとローカルAIの違い
2. ローカルAIはVRAMの容量で決まる
- 2.1. 「27B」「8B」って何の数字？
- 2.2. 実測：モデル別の生成速度
3. GPUメーカー別：どれが一番ラクに動く？
4. 始め方：4つのアプリから選ぶ
- 4.1. Ollamaの始め方（参考）
5. Windows・Mac・Linuxで何が変わる？
6. 中古GPUという選択肢
7. 予算別：あなたのGPUで何ができるか
8. GPU別コスパグラフ
9. トークンと日本語文字数の目安
10. コスパ早見表
11. 「結局どれを買えばいい？」
- 11.1. VRAMが足りなくても動く：部分オフロードという仕組み
12. 関連記事
13. 次のステップ

クラウドAIとローカルAIの違い

	クラウドAI	ローカルAI
プライバシー	会話内容がサーバーに送られる	全てPC内で完結。外部に出ない
月額コスト	ChatGPT Plus 月3,000円 / Claude Pro 月3,000円	0円（電気代のみ。GPU稼働時約50〜150W）
初期コスト	0円	GPU代 6〜40万円
1年間の総コスト	約36,000円	GPU代 + 電気代約3,000〜6,000円/年
ネット接続	必須	不要（オフラインで動く）
モデルの賢さ	GPT-4o / Claude 3.5等の最新モデル	8B〜32Bモデル（GPUのVRAM次第）
応答速度	40〜80 tok/s	15〜50 tok/s（GPU性能次第）

※ 1年以上使うなら、16GB GPU（約9万円）でもクラウドAIの月額を回収できる計算です。個人的に一番大きいのは、会話内容が外部に出ないことです。議事録の要約や個人的な相談など、気兼ねなく使えるのがローカルの強みだと感じています。

ローカルAIはVRAMの容量で決まる

ローカルLLMを試してみて実感したのは、「何ができるか」はほぼVRAM（GPUのメモリ）の量で決まるということです。

ローカルLLMの性能を決める要素（バーが長いほど影響が大きい）

1. VRAM容量	動かせるモデルの大きさが決まる（最重要）
2. メモリ帯域	1秒に何文字出るかに直結
3. GPU演算性能	意外と差が出ない
4. CPU/RAM	補助的

VRAMが足りないと、そもそも賢いモデルを動かせません。逆に、VRAMさえ足りていれば、GPUの演算性能はそこそこでも実用的な速度で動きます。

「27B」「8B」って何の数字？

ローカルAIの記事で「8Bモデル」「27Bモデル」という表記をよく見かけます。このB（Billion＝10億）はAIモデルのパラメータ数のことで、いわば「脳の大きさ」です。数字が大きいほど賢くなりますが、その分GPUのメモリ（VRAM）を多く消費します。身近なAIと比べると、イメージしやすいと思います。

モデルサイズ	パラメータ数	必要なVRAM	身近なAIで例えると
2〜4B	20〜40億個	約2〜4GB	スマホに搭載されたAI（Apple IntelligenceやGemini Nano）と同程度。文章の要約や簡単な受け答えはできるが、込み入った話は苦手
8B	80億個	約5〜6GB	ChatGPT無料版の軽量モデル（GPT-4o mini）と同等クラス。日常会話や簡単な質問なら実用的
14B	140億個	約10〜11GB	ChatGPT無料版（GPT-4o mini）を超え始めるライン。日本語の自然さがぐっと上がる。個人的にはここからが実用的
27〜32B	270〜320億個	約17〜22GB	ChatGPT Plus（GPT-4oクラス）に迫る品質。「これがローカルで動くの？」と驚くレベル
70B〜	700億個〜	45GB〜	ChatGPT Plusと同等かそれ以上。ただし一般的なGPU1枚では動かない

※ ChatGPTのモデル（GPT-4o等）は正確なパラメータ数が非公開のため、あくまでベンチマークから見た体感レベルの比較です。パラメータ数が同じでも、学習データの質や量、チューニングで性能は大きく変わります。 VRAMとモデルサイズの関係は単純です。 モデルのパラメータはGPUのVRAMに載せる必要があり、VRAMが足りなければそのモデルは動きません。たとえば8GBのVRAMなら8Bモデルまで、16GBなら14Bモデルまで、24GBなら32Bモデルまで動かせます。つまりVRAMの量＝動かせるモデルの上限＝AIの賢さの上限ということです。実際に計測した数値を載せておきます。

GPU	モデル	生成速度	VRAM使用量
RTX 3090 24GB	qwen3.5:27b	26.0 tok/s	18.2GB（2枚に分散）
RTX 3090 24GB	qwen3:8b	127.0 tok/s	10.3GB
RTX 3060 12GB	qwen3:8b	126.8 tok/s	–

私のPCには、RTX3090とRTX3060がささっています。RTX 3090（24GB）では27Bモデルが26 tok/sで実用的に動き、8Bモデルなら127 tok/sと爆速と言えます。一方RTX 3060（12GB）でも8Bモデルであれば、約127 tok/sで快適に動く、つまり演算速度はあまり関係がなく、VRAMの差が「使えるモデルの賢さ」に直結しています。 GPU選びは「VRAMをいくら積んでいるか」を最優先に考えるべきです。 VRAM別に動かせるモデルと性能を表にまとめました。

VRAM	動かせるモデル	代表的なモデル	生成速度目安	GPU価格帯
8GB	8B	Qwen 3 8B, Llama 3.1 8B, Gemma 3 4B	20〜40 tok/s	6〜7万円
12GB	8B〜12B	Gemma 3 12B, Qwen 3 8B（余裕）	25〜45 tok/s	5〜8万円
16GB	14B	Qwen 3 14B, DeepSeek-R1 14B, Gemma 3 12B	20〜50 tok/s	8〜16万円
24GB	32B	Qwen 3 32B, Gemma 3 27B, DeepSeek-R1 32B	15〜35 tok/s	18〜25万円
32GB	32B+長文	Qwen 3 32B（32Kコンテキスト）	20〜40 tok/s	40万円〜

この表の見方: VRAMが8GB→16GB→24GBと増えるごとに、動かせるモデルのサイズ（＝賢さ）が段階的に上がります。日本語で実用的に使いたいなら16GB（14Bモデル）が最低ラインでしょう。

実測：モデル別の生成速度

このグラフの見方: バーが長いほど生成速度が速い（＝快適）です。gemma4:9bが最速ですが、日本語の品質ではqwen3.5:27bが最も優れています。速さと賢さはトレードオフの関係です。

※ 計測環境: RTX 3090 (24GB) + RTX 3060 12GB / Linux / Ollama / 2026年4月計測。27bモデルは2GPU分散ロード。

あなたに必要なVRAMは？

やりたいこと	必要VRAM	モデル目安	生成速度目安
AIを試してみたい	8GB	8B（5〜6GB使用）	20〜40 tok/s
日本語で実用的に使いたい	16GB	14B（10〜11GB使用）	20〜50 tok/s
仕事で本格的に頼りたい	24GB	32B（22GB使用）	15〜35 tok/s
全部盛り（AI+VR+画像生成）	32GB	32B+長コンテキスト	20〜40 tok/s

※ tok/s = 1秒あたりに生成されるトークン数。20 tok/sあれば「ちょっと待つけど読める」、40 tok/s以上なら「すぐ返ってくる」体感です。

GPUメーカー別：どれが一番ラクに動く？

VRAMの次に大事なのが「そのGPUでちゃんと動くのか」です。メーカーによって、セットアップの手間がかなり違います。

メーカー	セットアップ	Windows	Mac	Linux
NVIDIA (CUDA)	ドライバ入れるだけ	◎	–	◎
AMD	Linuxなら良好。WindowsではAMD用のAI処理基盤（ROCm）の対応が不完全で、セットアップに手間がかかる	△	–	○
Apple Silicon	Ollama入れるだけ。メモリ共有で大型モデルも可	–	◎	–
Intel (iGPU)	対応が限定的。速度も遅め	△	–	△

一番ラクなのはNVIDIA（Windows/Linux）とApple Silicon（Mac）です。 私のようにWindowsやLinuxで使うなら、NVIDIAのGPUを選んでおけば間違いないです。ドライバを入れるだけでOllamaが自動認識してくれます。 AMDは同じVRAMをNVIDIAより安く買えるのが魅力ですが、Windows環境だとAI処理に必要なソフトウェア基盤（ROCm）の対応がまだ不完全で、設定に手間がかかります。NVIDIAのCUDAのように「ドライバを入れたら動く」とはいかないのが現状です。Linuxで使う覚悟があるならコスパは最強です。 ※ ROCm（ロックエム）= AMDのGPUでAI処理を動かすためのソフトウェア基盤。NVIDIAにおけるCUDAに相当するもの。NVIDIAのCUDAは長年の実績があり安定していますが、AMDのROCmはまだ発展途上で、特にWindowsでは対応ソフトが限られます。 Macユーザーは、Apple Siliconのユニファイドメモリが意外な強みです。24GB以上のモデルなら、32Bクラスも動かせます。速度はNVIDIA GPUに劣りますが、「ノートPCで32Bが動く」というのはなかなか面白い体験です。

始め方：4つのアプリから選ぶ

ローカルLLMを動かすアプリはいくつかあります。私はOllamaを使っていますが、自分に合うものを選ぶのが一番です。

ローカルLLMアプリ比較

アプリ	特徴	おすすめな人	OS
LM Studio	GUIでモデル検索〜チャットまで完結。一番とっつきやすい	初めての人	Win/Mac/Linux
Ollama + Open WebUI	コマンドラインで導入。ブラウザUIはOpen WebUIで追加	自分で構成を組みたい人	Win/Mac/Linux
Jan	プライバシー特化。デスクトップアプリとして完結	シンプルに使いたい人	Win/Mac/Linux
GPT4All	軽量。設定項目が少なく迷わない	軽く試したい人	Win/Mac/Linux

個人的なおすすめは、「まず試すならLM Studio、使い込むならOllama + Open WebUI」です。 LM Studioはインストールしたらすぐにモデルを検索・ダウンロード・チャットまでできるので、ターミナルに慣れていない人にはこちらのほうが入りやすいと思います。私がOllamaを選んだのは、コマンドラインからサクッと切り替えられる軽快さと、拡張性が好みだったからです。日常的にはターミナルアプリからチャットで使っています。

Ollamaの始め方（参考）

ollama.com からインストーラーをダウンロード
インストール（Windows / Mac / Linux対応）
ターミナルで「ollama run qwen3:8b」と入力
チャットが始まる

私の環境でも、インストールしたらGPUを自動認識してそのまま動きました。細かい設定で悩むことはなかったです。私の環境（RTX 3090）では、qwen3:8bが約127 tok/sで生成されます。体感では「入力した瞬間に返答が始まる」レベルです。RTX 3060でも126 tok/sとほぼ同等の速度が出ました。

Windows・Mac・Linuxで何が変わる？

OSによって体験がけっこう変わるので、整理しておきます。

OS	メリット	デメリット	向いている人
Windows	NVIDIAならセットアップが一番簡単。LM Studio等のGUIアプリも充実	VRAMのオーバーヘッドがLinuxより少し大きい。AMD GPUはセットアップに手間がかかる	NVIDIA GPU + 手軽に始めたい人
Mac	Apple Siliconのユニファイドメモリで大型モデルが動く。電力効率が良い	専用GPUより生成速度が遅い。本体が高価	Macがメイン機の人。持ち運びたい人
Linux	メモリ効率が最も高い。AMDのAI処理基盤（ROCm）もLinuxなら安定動作。Docker運用もラク	環境構築に技術的な知識が必要	AMD GPUの人。サーバー的に使いたい人

初めて、もしくは初心者の方へのおすすめとしては、 Windowsユーザー → NVIDIA GPU Macユーザー → Apple Silicon活用 Linuxユーザー → AMD GPUも選択肢に入る という感じになります。私はLinuxでRTX 3090 + RTX 3060の2枚挿しで運用しています。片方でOllama（チャットAI）、もう片方でComfyUI（画像生成）を同時に動かせるので、この構成はかなり気に入っています。

中古GPUという選択肢

新品だけが選択肢ではありません。私のRTX 3090は発売当時に定価の約30万円で買ったもの、サブ機のRTX 3060 12GBは中古で約4万円でした。中古で特にコスパが良いのは以下の2つです。

GPU	VRAM	中古相場（ショップ）	動くモデル	ポイント
RTX 3060 12GB	12GB	2〜3.5万円	8Bモデル	入門最安。12GBが2万円台
RTX 4060 Ti 16GB	16GB	7〜10万円	14Bモデル	穴場。16GBが新品の半額
RTX 3090 24GB	24GB	13〜20万円	32Bモデル	AI需要で高止まり中

注意: RTX 30世代はマイニングブームで酷使された個体が多い世代です。ただしRTX 3060 12GBはマイニング制限（LHR）が最初から搭載されており、12GBのVRAMもマイニングには不要だったため、酷使個体は比較的少なめです。RTX 3080/3090は逆にマイニングで人気だったため注意が必要。中古ショップの保証付きを選ぶことをおすすめします。

予算別：あなたのGPUで何ができるか

ここからは具体的な予算帯ごとに、どのGPUで何が動くのかを整理します。上で書いた通り、判断基準は「VRAMが何GB載っているか」が最優先、次に「NVIDIAかどうか」です。新品の価格帯で整理していますが、中古も視野に入れるなら上の比較表を参照してください。

予算6〜7万円帯（RTX 5060 / RTX 5060 Ti 8GB）

VRAM 8GB でできること:

やりたいこと	できる？	体感
日常の質問応答（天気、料理、雑談）	◎	十分実用的
簡単なコード補助	○	短いコードなら
日本語の文章校正	○	8Bモデルでもそこそこ
長文の要約（論文、議事録）	△	コンテキストが短い（2K〜4Kトークン）
複雑な推論・分析	△	8Bモデルの限界
翻訳（日英）	○	簡単な文ならOK

動かせるモデル:

モデル	VRAM使用量	生成速度目安	日本語
Qwen 3 8B	約5.2GB	30〜40 tok/s	そこそこ
Llama 3.1 8B	約6.2GB	25〜35 tok/s	英語向き
Gemma 3 4B	約3.6GB	50〜60 tok/s	簡易

「AIってこういうものか」と体験するには十分。ただし、日本語の品質は「まあまあ」といったところです。長い会話は途中で文脈を忘れがち。「お試し」としては最適だが、仕事で頼りにするには心もとない。 コスパ: ★★★☆☆（体験用としてはOK）

Palit GeForce RTX 5060 Ti Dual 8GB / NE7506T019P1 グラフィックボード

created by Rinker

Palit / ドスパラ

楽天で探す

予算9〜11万円帯（RTX 5060 Ti 16GB / RX 9070）

VRAM 16GB でできること:

やりたいこと	できる？	体感
日常の質問応答	◎	快適
コード補助（中程度）	◎	関数単位なら実用的
日本語の文章校正・リライト	◎	14Bモデルは日本語がかなり良い
長文の要約	○	8K〜16Kトークンまでなら
メールの下書き作成	◎	実用レベル
技術的な質問応答	○	14Bなりの深さ
小説・ブログ記事の草稿	○	たたき台としては使える

動かせるモデル:

モデル	VRAM使用量	生成速度目安	日本語	特徴
Qwen 3 14B	約10.7GB	20〜35 tok/s	良い	日本語が一段上。個人的にはここから「使える」
Gemma 3 12B	約12.4GB	20〜30 tok/s	良い	Googleの12B。バランス型
DeepSeek-R1-Distill 14B	約11GB	18〜28 tok/s	やや良い	推論（考えてから答える）が得意

ここが「実用の入口」。 14Bモデルは8Bから体感で明らかに賢くなります。日本語の自然さ、質問の理解力、要約の的確さが段違い。「月額課金のChatGPTをやめて、こっちで済むかも」と思い始めるライン。ただし、RTX 5060 Ti 16GBは128bitバス幅なので、トークン生成速度は上位GPUより遅め。「賢いけど、ちょっと話すのが遅い友人」というイメージ。 AMD RX 9070（16GB / 約8万円）はVRAMあたりの価格が最安ですが、AMD GPU向けのAI処理基盤の対応はNVIDIAほど成熟していません。Windowsでは設定にひと手間かかる場合があります。 コスパ: ★★★★☆（実用の入口として最もバランスが良い）

MSI GeForce RTX 5060 Ti 16G VENTUS 2X OC PLUS グラフィックボード

created by Rinker

MSI

予算16万円帯（RTX 5070 Ti 16GB）

VRAM 16GB（高速）でできること: できることは16GB帯と同じですが、速度が違います。

比較	RTX 5060 Ti 16GB	RTX 5070 Ti 16GB
Qwen 3 14B 生成速度	約20〜25 tok/s	約40〜50 tok/s
体感	「少し待つ」	「すぐ返ってくる」
AI画像生成との兼用	やや遅い	快適
VRとの兼用	入門レベル	快適

16GBの中では最も快適。VRやAI画像生成もやりたいなら、5060 Tiとの差額6万円は十分に価値があります。「ローカルAI専用ならオーバースペック、他の用途と兼用なら最適」 というポジション。 コスパ: ★★★★☆（兼用前提なら最高）

ASUS｜エイスース ASUS PRIME GeForce RTX 5070 Ti 16GB GDDR7 トリプルファン搭載グラフィックボード PRIME-RTX5070TI-16G

created by Rinker

予算12〜30万円帯（RX 7900 XTX 24GB / RTX 5080 16GB）

ここから「本気のローカルAI」。 VRAM 24GB（RX 7900 XTX）でできること:

やりたいこと	できる？	体感
上記の全て	◎	快適
32Bモデル（Qwen 3 32B等）	◎	「思ったより賢い」と驚く
長文の分析・要約	◎	16K〜32Kトークンが実用域
複数文書の横断分析	○	できるが速度は落ちる
コード補助（ファイル全体）	◎	32Bモデルのコード理解力は高い
専門的な質問応答	◎	医学、法律、技術等もかなりの精度

動かせるモデル:

モデル	VRAM使用量	生成速度目安	日本語	特徴
Qwen 3 32B	約22.2GB	15〜30 tok/s	非常に良い	「ローカルでこれが動くのか」と驚くレベル
Gemma 3 27B	約22.5GB	15〜25 tok/s	非常に良い	Googleの大型モデル
DeepSeek-R1-Distill 32B	約22GB	12〜22 tok/s	良い	推論チェーンが深い

32Bモデルは世界が変わります。 14Bまでは「AIっぽいけど、まあこんなものか」だったのが、32Bは「え、これローカルで動いてるの？」という驚きがあります。日本語の品質、推論の深さ、文脈の保持力が段違い。 RX 7900 XTX（24GB / 約12〜15万円）はVRAMあたりの価格でNVIDIAを圧倒しますが、AI処理を安定して動かすにはLinux環境が推奨です。Windowsで使うなら設定の覚悟が必要。 RTX 5080（16GB / 約19〜30万円）は速度は最高クラスですが、VRAMは16GBなので32Bモデルは動きません。「速い14B」か「VRAMたっぷりの32B」か、ここが最大の分岐点。 コスパ: ★★★★★（ローカルAIに本気なら最もコスパが良い帯域）

POWERCOLOR グラフィックボード AMD Radeon RX7900XTX GDDR6 24GB 搭載モデル【国内正規代理店品】 24G-L/OC

created by Rinker

GIGABYTE GeForce RTX 5080 AORUS MASTER 16GB GDDR7 GV-N5080AORUS M-16GD

created by Rinker

GIGABYTE

予算40〜61万円帯（RTX 5090 32GB）

VRAM 32GBでできること: 32Bモデルを超長コンテキスト（32K+トークン）で余裕を持って運用。32GBあっても70Bモデルには足りません（45GB+必要）。ローカルAIだけのために買うにはオーバースペック。VR（120Hz最高設定）+ AI画像生成（FLUX Dev）+ ローカルLLM（32B）を1枚で全部やりたい「全部盛り」の人向け。 コスパ: ★★☆☆☆（全部盛りなら理解できるが、AI専用には高すぎ）

Inno3D GeForce RTX 5090 X3 32GB GDDR7 GD5090-32GERX3 グラフィックボード

created by Rinker

Inno3D / ELSAジャパン

GPU別コスパグラフ

ローカルLLM コスパランキング

このグラフの見方: バーが長いほど「価格に対して性能が高い」＝コスパが良いGPUです。コスパ指標は「実用性能スコア ÷ 価格（万円）」で算出しています。

※ 実用性能スコアの算出基準（100点満点）: 動かせるモデルの上限サイズ（VRAM依存）を50%、生成速度（メモリ帯域依存）を30%、コンテキスト長の余裕（VRAM余裕依存）を20%として加重合算。このスコアをGPU価格（万円）で割ったものがコスパ指標です。数字が大きいほど、1万円あたりの性能が高いことを意味します。

グラフから読み取れること

RX 9070（16GB / 8万円）がコスパ最高。ただしAMDのAI処理基盤（ROCm）はLinux推奨で、Windowsでは設定に手間がかかります
RTX 5060 Ti 16GB（9〜11万円）がNVIDIA勢ではコスパ最強。16GBのVRAMを約9〜11万円で得られるのは、14Bモデルを実用的に動かす最安ライン
RTX 5080（19〜30万円）やRTX 5090（40〜61万円）はコスパでは不利。性能は高いが価格も高いので、指標としては低くなります。予算に余裕がある人、またはAI以外の用途（VR、ゲーム）と兼用する人向けです
RTX 5090（40〜61万円）は「全部盛り」向け。LLMだけのために買うには高すぎるが、VR+画像生成+LLMの兼用なら納得感がある

モデル別日本語コスパランキング

このグラフの見方: バーが長いほど「少ないVRAMで高い日本語品質が得られる」＝コスパが良いモデルです。指標は「日本語品質（5段階）÷ 必要VRAM（GB）×10」で算出。★印の14Bモデル（Qwen 3 14B、DeepSeek-R1 14B）が実用ラインです。これより上のモデルは日本語品質が高いものの、必要なVRAMも大きくなるため、コスパ指標としては下がります。

※ 14Bモデルは必要VRAM約10〜11GBで、日本語品質が4.0/5.0。8Bモデル以下はVRAMが少なくて済むのでコスパ指標は高く出ますが、日本語の品質は「まあまあ」といったところです。コスパ指標だけでなく、品質の絶対値も考慮して選んでください。個人的には、14B以上が実用的な日本語品質の最低ラインだと感じています。

トークンと日本語文字数の目安

記事内で「tok/s（トークン毎秒）」という単位を使っています。日本語の場合、1トークンは約1〜1.2文字に相当します（Qwen3で実測）。つまり127 tok/sは1秒間に約120文字以上を生成する計算です。

コスパ早見表

予算	GPU	動くモデル	日本語品質	おすすめ度
6〜7万円	RTX 5060 Ti 8GB	8B	まあまあ	お試し
9万円	RTX 5060 Ti 16GB	14B	良い	入門に最適
8万円	RX 9070 16GB	14B	良い	Linux使いに
16万円	RTX 5070 Ti 16GB	14B（高速）	良い	兼用に最適
18万円	RX 7900 XTX 24GB	32B	非常に良い	本気のAI用
20万円	RTX 5080 16GB	14B（最速）	良い	速度重視
40万円〜	RTX 5090 32GB	32B（余裕）	非常に良い	全部盛り

「結局どれを買えばいい？」

まず試したいだけなら: 今持っているPCにLM StudioかOllamaを入れてみてください。GPUがなくてもCPUとメインメモリだけで動きます。速度はGPUの10分の1〜20分の1程度になりますが、文字がゆっくり出てくるのを読みながら待てるくらいの速さです。「ローカルAIってこんな感じか」と体験するには十分です。それで「もっと速く、もっと賢いモデルを動かしたい」と思ったらGPUを検討する、という順番でも遅くありません。 ※ 参考：私のPCでCPUのみ（GPU不使用）で8Bモデルを動かしたところ、約8 tok/sでした（AMD Ryzen 9 3950X / DDR4メモリ 64GB / 2019年発売のCPU）。GPUを使った場合の127 tok/sと比べると約16分の1です。CPUモードではモデルをメインメモリに読み込むため、メインメモリの容量が足りないと動きません。8Bモデルで約5〜6GBのメモリを消費するので、OS等の使用分と合わせるとメインメモリは最低16GB、できれば32GB以上あると安心です。私のPCはメモリ64GBと多めなので余裕がありましたが、8GBのPCでは厳しいかもしれません。また、CPUの推論速度はメインメモリの帯域に左右されるため、DDR5搭載の新しいPCならもう少し速くなると思われます。

VRAMが足りなくても動く：部分オフロードという仕組み

LLMには画像生成AIと異なる特徴があります。画像生成（Stable Diffusion等）はモデル全体がVRAMに載っていないと動きませんが、LLMはモデルの一部だけをGPUに載せて、残りをメインメモリに置く「部分オフロード」ができます。たとえば27Bモデル（本来18GB以上のVRAMが必要）を、12GBのGPU1枚で動かすことも可能です。速度は落ちますが、「動かないよりはマシ」という選択肢があります。

ロード方式	GPUに載せた量	VRAM使用	速度
GPU全レイヤー（2枚分散）	全64層	26.2GB	26.0 tok/s
GPU 30層 + メインメモリ	64層中30層	11.8GB	2.9 tok/s
GPU 15層 + メインメモリ	64層中15層	7.0GB	2.1 tok/s
CPUのみ	0層	0GB	1.7 tok/s

※ qwen3.5:27bで実測。GPU: RTX 3090 + RTX 3060 / CPU: Ryzen 9 3950X / DDR4 64GB。2026年4月計測。 GPUに半分でも載せれば、CPUのみ（1.7 tok/s）より速くなります（2〜3 tok/s）。ただし全部GPUに載る場合（26 tok/s）と比べると10分の1程度まで落ちるので、快適とは言い難い速度です。この仕組みがあるため、VRAMが「ギリギリ足りない」場合でも、モデルサイズを理由に諦める必要はありません。速度を許容できるなら、VRAMの上限を超えたモデルに挑戦できます。Ollamaは自動的にVRAMに入りきらない分をメインメモリに回してくれるので、特別な設定は不要です。 14Bモデルで始めるなら: RTX 5060 Ti 16GB（約9〜11万円）。NVIDIAの16GBとしてはこの価格帯が最も手頃です。ただし品薄で値上がり中のため、在庫があるうちに。

MSI GeForce RTX 5060 Ti 16G VENTUS 2X OC PLUS グラフィックボード

created by Rinker

MSI

32Bモデルを動かしたいなら: RX 7900 XTX（24GB / 約12万円〜）が価格的に最も現実的です。24GBのVRAMが12万円で手に入るのは2026年4月時点で破格と言えます。ただしAMDのAI処理基盤（ROCm）はLinux環境が推奨です。Windowsで使いたい場合は、NVIDIAのRTX 5080（16GB / 約19万円〜）か、中古のRTX 3090（24GB / 13〜20万円）が候補になります。