
私はメインのPCにGPUを2枚差して、ローカルでも生成AIを動かしています。ChatGPTやClaudeも使いますが、仕事の資料を要約させるときに「これ、外部に送って大丈夫かな」と気になることが増えてきました。月額料金もじわじわ効いてきます。
そこで、自宅のGPUだけでどこまでAIチャットボットが使えるのか、予算帯ごとに整理してみました。
※ この記事では、一般的なデスクトップPCに搭載できるコンシューマー向けGPU(NVIDIA GeForce / AMD Radeonシリーズ)を対象にしています。NVIDIA A100やH100といったサーバー・データセンター向けのGPU(VRAM 40〜80GB、価格100万円〜)は扱っていません。そのため記事内のVRAM上限は32GBまでとなっています。
クラウドAIとローカルAIの違い
|
クラウドAI |
ローカルAI |
| プライバシー |
会話内容がサーバーに送られる |
全てPC内で完結。外部に出ない |
| 月額コスト |
ChatGPT Plus 月3,000円 / Claude Pro 月3,000円 |
0円(電気代のみ。GPU稼働時 約50〜150W) |
| 初期コスト |
0円 |
GPU代 6〜40万円 |
| 1年間の総コスト |
約36,000円 |
GPU代 + 電気代 約3,000〜6,000円/年 |
| ネット接続 |
必須 |
不要(オフラインで動く) |
| モデルの賢さ |
GPT-4o / Claude 3.5等の最新モデル |
8B〜32Bモデル(GPUのVRAM次第) |
| 応答速度 |
40〜80 tok/s |
15〜50 tok/s(GPU性能次第) |
※ 1年以上使うなら、16GB GPU(約9万円)でもクラウドAIの月額を回収できる計算です。
個人的に一番大きいのは、会話内容が外部に出ないことです。議事録の要約や個人的な相談など、気兼ねなく使えるのがローカルの強みだと感じています。
ローカルAIはVRAMの容量で決まる
ローカルLLMを試してみて実感したのは、
「何ができるか」はほぼVRAM(GPUのメモリ)の量で決まるということです。
ローカルLLMの性能を決める要素 (バーが長いほど影響が大きい)
| 1. VRAM容量 |
動かせるモデルの大きさが決まる(最重要) |
| 2. メモリ帯域 |
1秒に何文字出るかに直結 |
| 3. GPU演算性能 |
意外と差が出ない |
| 4. CPU/RAM |
補助的 |
VRAMが足りないと、そもそも賢いモデルを動かせません。逆に、VRAMさえ足りていれば、GPUの演算性能はそこそこでも実用的な速度で動きます。
「27B」「8B」って何の数字?
ローカルAIの記事で「8Bモデル」「27Bモデル」という表記をよく見かけます。この
B(Billion=10億)はAIモデルのパラメータ数のことで、いわば「脳の大きさ」です。数字が大きいほど賢くなりますが、その分GPUのメモリ(VRAM)を多く消費します。
身近なAIと比べると、イメージしやすいと思います。
| モデルサイズ |
パラメータ数 |
必要なVRAM |
身近なAIで例えると |
| 2〜4B |
20〜40億個 |
約2〜4GB |
スマホに搭載されたAI(Apple IntelligenceやGemini Nano)と同程度。文章の要約や簡単な受け答えはできるが、込み入った話は苦手 |
| 8B |
80億個 |
約5〜6GB |
ChatGPT無料版の軽量モデル(GPT-4o mini)と同等クラス。日常会話や簡単な質問なら実用的 |
| 14B |
140億個 |
約10〜11GB |
ChatGPT無料版(GPT-4o mini)を超え始めるライン。日本語の自然さがぐっと上がる。個人的にはここからが実用的 |
| 27〜32B |
270〜320億個 |
約17〜22GB |
ChatGPT Plus(GPT-4oクラス)に迫る品質。「これがローカルで動くの?」と驚くレベル |
| 70B〜 |
700億個〜 |
45GB〜 |
ChatGPT Plusと同等かそれ以上。ただし一般的なGPU1枚では動かない |
※ ChatGPTのモデル(GPT-4o等)は正確なパラメータ数が非公開のため、あくまでベンチマークから見た体感レベルの比較です。パラメータ数が同じでも、学習データの質や量、チューニングで性能は大きく変わります。
VRAMとモデルサイズの関係は単純です。 モデルのパラメータはGPUのVRAMに載せる必要があり、VRAMが足りなければそのモデルは動きません。たとえば8GBのVRAMなら8Bモデルまで、16GBなら14Bモデルまで、24GBなら32Bモデルまで動かせます。つまり
VRAMの量=動かせるモデルの上限=AIの賢さの上限ということです。
実際に計測した数値を載せておきます。
| GPU |
モデル |
生成速度 |
VRAM使用量 |
| RTX 3090 24GB |
qwen3.5:27b |
26.0 tok/s |
18.2GB(2枚に分散) |
| RTX 3090 24GB |
qwen3:8b |
127.0 tok/s |
10.3GB |
| RTX 3060 12GB |
qwen3:8b |
126.8 tok/s |
– |
私のPCには、RTX3090とRTX3060がささっています。RTX 3090(24GB)では27Bモデルが26 tok/sで実用的に動き、8Bモデルなら127 tok/sと爆速と言えます。一方RTX 3060(12GB)でも8Bモデルであれば、約127 tok/sで快適に動く、つまり演算速度はあまり関係がなく、VRAMの差が「使えるモデルの賢さ」に直結しています。
GPU選びは「VRAMをいくら積んでいるか」を最優先に考えるべきです。
VRAM別に動かせるモデルと性能を表にまとめました。
| VRAM |
動かせるモデル |
代表的なモデル |
生成速度目安 |
GPU価格帯 |
| 8GB |
8B |
Qwen 3 8B, Llama 3.1 8B, Gemma 3 4B |
20〜40 tok/s |
6〜7万円 |
| 12GB |
8B〜12B |
Gemma 3 12B, Qwen 3 8B(余裕) |
25〜45 tok/s |
5〜8万円 |
| 16GB |
14B |
Qwen 3 14B, DeepSeek-R1 14B, Gemma 3 12B |
20〜50 tok/s |
8〜16万円 |
| 24GB |
32B |
Qwen 3 32B, Gemma 3 27B, DeepSeek-R1 32B |
15〜35 tok/s |
18〜25万円 |
| 32GB |
32B+長文 |
Qwen 3 32B(32Kコンテキスト) |
20〜40 tok/s |
40万円〜 |
この表の見方: VRAMが8GB→16GB→24GBと増えるごとに、動かせるモデルのサイズ(=賢さ)が段階的に上がります。
日本語で実用的に使いたいなら16GB(14Bモデル)が最低ラインでしょう。
実測:モデル別の生成速度
このグラフの見方: バーが長いほど生成速度が速い(=快適)です。gemma4:9bが最速ですが、日本語の品質ではqwen3.5:27bが最も優れています。速さと賢さはトレードオフの関係です。
※ 計測環境: RTX 3090 (24GB) + RTX 3060 12GB / Linux / Ollama / 2026年4月計測。27bモデルは2GPU分散ロード。
あなたに必要なVRAMは?
| やりたいこと |
必要VRAM |
モデル目安 |
生成速度目安 |
| AIを試してみたい |
8GB |
8B(5〜6GB使用) |
20〜40 tok/s |
| 日本語で実用的に使いたい |
16GB |
14B(10〜11GB使用) |
20〜50 tok/s |
| 仕事で本格的に頼りたい |
24GB |
32B(22GB使用) |
15〜35 tok/s |
| 全部盛り(AI+VR+画像生成) |
32GB |
32B+長コンテキスト |
20〜40 tok/s |
※ tok/s = 1秒あたりに生成されるトークン数。20 tok/sあれば「ちょっと待つけど読める」、40 tok/s以上なら「すぐ返ってくる」体感です。
GPUメーカー別:どれが一番ラクに動く?
VRAMの次に大事なのが「そのGPUでちゃんと動くのか」です。メーカーによって、セットアップの手間がかなり違います。
| メーカー |
セットアップ |
Windows |
Mac |
Linux |
| NVIDIA (CUDA) |
ドライバ入れるだけ |
◎ |
– |
◎ |
| AMD |
Linuxなら良好。WindowsではAMD用のAI処理基盤(ROCm)の対応が不完全で、セットアップに手間がかかる |
△ |
– |
○ |
| Apple Silicon |
Ollama入れるだけ。メモリ共有で大型モデルも可 |
– |
◎ |
– |
| Intel (iGPU) |
対応が限定的。速度も遅め |
△ |
– |
△ |
一番ラクなのはNVIDIA(Windows/Linux)とApple Silicon(Mac)です。
私のようにWindowsやLinuxで使うなら、NVIDIAのGPUを選んでおけば間違いないです。ドライバを入れるだけでOllamaが自動認識してくれます。
AMDは同じVRAMをNVIDIAより安く買えるのが魅力ですが、Windows環境だとAI処理に必要なソフトウェア基盤(ROCm)の対応がまだ不完全で、設定に手間がかかります。NVIDIAのCUDAのように「ドライバを入れたら動く」とはいかないのが現状です。Linuxで使う覚悟があるならコスパは最強です。
※ ROCm(ロックエム)= AMDのGPUでAI処理を動かすためのソフトウェア基盤。NVIDIAにおけるCUDAに相当するもの。NVIDIAのCUDAは長年の実績があり安定していますが、AMDのROCmはまだ発展途上で、特にWindowsでは対応ソフトが限られます。
Macユーザーは、Apple Siliconのユニファイドメモリが意外な強みです。24GB以上のモデルなら、32Bクラスも動かせます。速度はNVIDIA GPUに劣りますが、「ノートPCで32Bが動く」というのはなかなか面白い体験です。
始め方:4つのアプリから選ぶ
ローカルLLMを動かすアプリはいくつかあります。私はOllamaを使っていますが、自分に合うものを選ぶのが一番です。
ローカルLLMアプリ比較
| アプリ |
特徴 |
おすすめな人 |
OS |
| LM Studio |
GUIでモデル検索〜チャットまで完結。一番とっつきやすい |
初めての人 |
Win/Mac/Linux |
| Ollama + Open WebUI |
コマンドラインで導入。ブラウザUIはOpen WebUIで追加 |
自分で構成を組みたい人 |
Win/Mac/Linux |
| Jan |
プライバシー特化。デスクトップアプリとして完結 |
シンプルに使いたい人 |
Win/Mac/Linux |
| GPT4All |
軽量。設定項目が少なく迷わない |
軽く試したい人 |
Win/Mac/Linux |
個人的なおすすめは、「まず試すならLM Studio、使い込むならOllama + Open WebUI」です。
LM Studioはインストールしたらすぐにモデルを検索・ダウンロード・チャットまでできるので、ターミナルに慣れていない人にはこちらのほうが入りやすいと思います。
私がOllamaを選んだのは、コマンドラインからサクッと切り替えられる軽快さと、拡張性が好みだったからです。日常的にはターミナルアプリからチャットで使っています。
Ollamaの始め方(参考)
- ollama.com からインストーラーをダウンロード
- インストール(Windows / Mac / Linux対応)
- ターミナルで「ollama run qwen3:8b」と入力
- チャットが始まる
私の環境でも、インストールしたらGPUを自動認識してそのまま動きました。細かい設定で悩むことはなかったです。
私の環境(RTX 3090)では、qwen3:8bが約127 tok/sで生成されます。体感では「入力した瞬間に返答が始まる」レベルです。RTX 3060でも126 tok/sとほぼ同等の速度が出ました。
Windows・Mac・Linuxで何が変わる?
OSによって体験がけっこう変わるので、整理しておきます。
| OS |
メリット |
デメリット |
向いている人 |
| Windows |
NVIDIAならセットアップが一番簡単。LM Studio等のGUIアプリも充実 |
VRAMのオーバーヘッドがLinuxより少し大きい。AMD GPUはセットアップに手間がかかる |
NVIDIA GPU + 手軽に始めたい人 |
| Mac |
Apple Siliconのユニファイドメモリで大型モデルが動く。電力効率が良い |
専用GPUより生成速度が遅い。本体が高価 |
Macがメイン機の人。持ち運びたい人 |
| Linux |
メモリ効率が最も高い。AMDのAI処理基盤(ROCm)もLinuxなら安定動作。Docker運用もラク |
環境構築に技術的な知識が必要 |
AMD GPUの人。サーバー的に使いたい人 |
初めて、もしくは初心者の方へのおすすめとしては、
Windowsユーザー → NVIDIA GPU
Macユーザー → Apple Silicon活用
Linuxユーザー → AMD GPUも選択肢に入る
という感じになります。
私はLinuxでRTX 3090 + RTX 3060の2枚挿しで運用しています。片方でOllama(チャットAI)、もう片方でComfyUI(画像生成)を同時に動かせるので、この構成はかなり気に入っています。
中古GPUという選択肢
新品だけが選択肢ではありません。私のRTX 3090は発売当時に定価の約30万円で買ったもの、サブ機のRTX 3060 12GBは中古で約4万円でした。
中古で特にコスパが良いのは以下の2つです。
| GPU |
VRAM |
中古相場(ショップ) |
動くモデル |
ポイント |
| RTX 3060 12GB |
12GB |
2〜3.5万円 |
8Bモデル |
入門最安。12GBが2万円台 |
| RTX 4060 Ti 16GB |
16GB |
7〜10万円 |
14Bモデル |
穴場。16GBが新品の半額 |
| RTX 3090 24GB |
24GB |
13〜20万円 |
32Bモデル |
AI需要で高止まり中 |
注意: RTX 30世代はマイニングブームで酷使された個体が多い世代です。ただしRTX 3060 12GBはマイニング制限(LHR)が最初から搭載されており、12GBのVRAMもマイニングには不要だったため、酷使個体は比較的少なめです。RTX 3080/3090は逆にマイニングで人気だったため注意が必要。中古ショップの保証付きを選ぶことをおすすめします。
予算別:あなたのGPUで何ができるか
ここからは具体的な予算帯ごとに、どのGPUで何が動くのかを整理します。上で書いた通り、
判断基準は「VRAMが何GB載っているか」が最優先、次に「NVIDIAかどうか」です。新品の価格帯で整理していますが、中古も視野に入れるなら上の比較表を参照してください。
予算6〜7万円帯(RTX 5060 / RTX 5060 Ti 8GB)
VRAM 8GB でできること:
| やりたいこと |
できる? |
体感 |
| 日常の質問応答(天気、料理、雑談) |
◎ |
十分実用的 |
| 簡単なコード補助 |
○ |
短いコードなら |
| 日本語の文章校正 |
○ |
8Bモデルでもそこそこ |
| 長文の要約(論文、議事録) |
△ |
コンテキストが短い(2K〜4Kトークン) |
| 複雑な推論・分析 |
△ |
8Bモデルの限界 |
| 翻訳(日英) |
○ |
簡単な文ならOK |
動かせるモデル:
| モデル |
VRAM使用量 |
生成速度目安 |
日本語 |
| Qwen 3 8B |
約5.2GB |
30〜40 tok/s |
そこそこ |
| Llama 3.1 8B |
約6.2GB |
25〜35 tok/s |
英語向き |
| Gemma 3 4B |
約3.6GB |
50〜60 tok/s |
簡易 |
「AIってこういうものか」と体験するには十分。ただし、日本語の品質は「まあまあ」といったところです。長い会話は途中で文脈を忘れがち。
「お試し」としては最適だが、仕事で頼りにするには心もとない。
コスパ: ★★★☆☆(体験用としてはOK)
Palit GeForce RTX 5060 Ti Dual 8GB / NE7506T019P1 グラフィックボード
予算9〜11万円帯(RTX 5060 Ti 16GB / RX 9070)
VRAM 16GB でできること:
| やりたいこと |
できる? |
体感 |
| 日常の質問応答 |
◎ |
快適 |
| コード補助(中程度) |
◎ |
関数単位なら実用的 |
| 日本語の文章校正・リライト |
◎ |
14Bモデルは日本語がかなり良い |
| 長文の要約 |
○ |
8K〜16Kトークンまでなら |
| メールの下書き作成 |
◎ |
実用レベル |
| 技術的な質問応答 |
○ |
14Bなりの深さ |
| 小説・ブログ記事の草稿 |
○ |
たたき台としては使える |
動かせるモデル:
| モデル |
VRAM使用量 |
生成速度目安 |
日本語 |
特徴 |
| Qwen 3 14B |
約10.7GB |
20〜35 tok/s |
良い |
日本語が一段上。個人的にはここから「使える」 |
| Gemma 3 12B |
約12.4GB |
20〜30 tok/s |
良い |
Googleの12B。バランス型 |
| DeepSeek-R1-Distill 14B |
約11GB |
18〜28 tok/s |
やや良い |
推論(考えてから答える)が得意 |
ここが「実用の入口」。 14Bモデルは8Bから体感で明らかに賢くなります。日本語の自然さ、質問の理解力、要約の的確さが段違い。「月額課金のChatGPTをやめて、こっちで済むかも」と思い始めるライン。
ただし、RTX 5060 Ti 16GBは128bitバス幅なので、トークン生成速度は上位GPUより遅め。「賢いけど、ちょっと話すのが遅い友人」というイメージ。
AMD RX 9070(16GB / 約8万円)はVRAMあたりの価格が最安ですが、AMD GPU向けのAI処理基盤の対応はNVIDIAほど成熟していません。Windowsでは設定にひと手間かかる場合があります。
コスパ: ★★★★☆(実用の入口として最もバランスが良い)
MSI GeForce RTX 5060 Ti 16G VENTUS 2X OC PLUS グラフィックボード
予算16万円帯(RTX 5070 Ti 16GB)
VRAM 16GB(高速)でできること:
できることは16GB帯と同じですが、
速度が違います。
| 比較 |
RTX 5060 Ti 16GB |
RTX 5070 Ti 16GB |
| Qwen 3 14B 生成速度 |
約20〜25 tok/s |
約40〜50 tok/s |
| 体感 |
「少し待つ」 |
「すぐ返ってくる」 |
| AI画像生成との兼用 |
やや遅い |
快適 |
| VRとの兼用 |
入門レベル |
快適 |
16GBの中では最も快適。VRやAI画像生成もやりたいなら、5060 Tiとの差額6万円は十分に価値があります。
「ローカルAI専用ならオーバースペック、他の用途と兼用なら最適」 というポジション。
コスパ: ★★★★☆(兼用前提なら最高)
予算12〜30万円帯(RX 7900 XTX 24GB / RTX 5080 16GB)
ここから「本気のローカルAI」。
VRAM 24GB(RX 7900 XTX)でできること:
| やりたいこと |
できる? |
体感 |
| 上記の全て |
◎ |
快適 |
| 32Bモデル(Qwen 3 32B等) |
◎ |
「思ったより賢い」と驚く |
| 長文の分析・要約 |
◎ |
16K〜32Kトークンが実用域 |
| 複数文書の横断分析 |
○ |
できるが速度は落ちる |
| コード補助(ファイル全体) |
◎ |
32Bモデルのコード理解力は高い |
| 専門的な質問応答 |
◎ |
医学、法律、技術等もかなりの精度 |
動かせるモデル:
| モデル |
VRAM使用量 |
生成速度目安 |
日本語 |
特徴 |
| Qwen 3 32B |
約22.2GB |
15〜30 tok/s |
非常に良い |
「ローカルでこれが動くのか」と驚くレベル |
| Gemma 3 27B |
約22.5GB |
15〜25 tok/s |
非常に良い |
Googleの大型モデル |
| DeepSeek-R1-Distill 32B |
約22GB |
12〜22 tok/s |
良い |
推論チェーンが深い |
32Bモデルは世界が変わります。 14Bまでは「AIっぽいけど、まあこんなものか」だったのが、32Bは「え、これローカルで動いてるの?」という驚きがあります。日本語の品質、推論の深さ、文脈の保持力が段違い。
RX 7900 XTX(24GB / 約12〜15万円)はVRAMあたりの価格でNVIDIAを圧倒しますが、AI処理を安定して動かすにはLinux環境が推奨です。Windowsで使うなら設定の覚悟が必要。
RTX 5080(16GB / 約19〜30万円)は速度は最高クラスですが、VRAMは16GBなので32Bモデルは動きません。「速い14B」か「VRAMたっぷりの32B」か、ここが最大の分岐点。
コスパ: ★★★★★(ローカルAIに本気なら最もコスパが良い帯域)
GIGABYTE GeForce RTX 5080 AORUS MASTER 16GB GDDR7 GV-N5080AORUS M-16GD
予算40〜61万円帯(RTX 5090 32GB)
VRAM 32GBでできること:
32Bモデルを超長コンテキスト(32K+トークン)で余裕を持って運用。32GBあっても70Bモデルには足りません(45GB+必要)。
ローカルAIだけのために買うにはオーバースペック。VR(120Hz最高設定)+ AI画像生成(FLUX Dev)+ ローカルLLM(32B)を1枚で全部やりたい「全部盛り」の人向け。
コスパ: ★★☆☆☆(全部盛りなら理解できるが、AI専用には高すぎ)
Inno3D GeForce RTX 5090 X3 32GB GDDR7 GD5090-32GERX3 グラフィックボード
GPU別コスパグラフ
ローカルLLM コスパランキング
このグラフの見方: バーが長いほど「価格に対して性能が高い」=コスパが良いGPUです。コスパ指標は「実用性能スコア ÷ 価格(万円)」で算出しています。
※ 実用性能スコアの算出基準(100点満点): 動かせるモデルの上限サイズ(VRAM依存)を50%、生成速度(メモリ帯域依存)を30%、コンテキスト長の余裕(VRAM余裕依存)を20%として加重合算。このスコアをGPU価格(万円)で割ったものがコスパ指標です。数字が大きいほど、1万円あたりの性能が高いことを意味します。
グラフから読み取れること
- RX 9070(16GB / 8万円)がコスパ最高。ただしAMDのAI処理基盤(ROCm)はLinux推奨で、Windowsでは設定に手間がかかります
- RTX 5060 Ti 16GB(9〜11万円)がNVIDIA勢ではコスパ最強。16GBのVRAMを約9〜11万円で得られるのは、14Bモデルを実用的に動かす最安ライン
- RTX 5080(19〜30万円)やRTX 5090(40〜61万円)はコスパでは不利。性能は高いが価格も高いので、指標としては低くなります。予算に余裕がある人、またはAI以外の用途(VR、ゲーム)と兼用する人向けです
- RTX 5090(40〜61万円)は「全部盛り」向け。LLMだけのために買うには高すぎるが、VR+画像生成+LLMの兼用なら納得感がある
モデル別 日本語コスパランキング
このグラフの見方: バーが長いほど「少ないVRAMで高い日本語品質が得られる」=コスパが良いモデルです。指標は「日本語品質(5段階)÷ 必要VRAM(GB)×10」で算出。★印の14Bモデル(Qwen 3 14B、DeepSeek-R1 14B)が実用ラインです。これより上のモデルは日本語品質が高いものの、必要なVRAMも大きくなるため、コスパ指標としては下がります。
※ 14Bモデルは必要VRAM約10〜11GBで、日本語品質が4.0/5.0。8Bモデル以下はVRAMが少なくて済むのでコスパ指標は高く出ますが、日本語の品質は「まあまあ」といったところです。コスパ指標だけでなく、品質の絶対値も考慮して選んでください。個人的には、14B以上が実用的な日本語品質の最低ラインだと感じています。
トークンと日本語文字数の目安
記事内で「tok/s(トークン毎秒)」という単位を使っています。日本語の場合、1トークンは約1〜1.2文字に相当します(Qwen3で実測)。つまり127 tok/sは1秒間に約120文字以上を生成する計算です。
コスパ早見表
| 予算 |
GPU |
動くモデル |
日本語品質 |
おすすめ度 |
| 6〜7万円 |
RTX 5060 Ti 8GB |
8B |
まあまあ |
お試し |
| 9万円 |
RTX 5060 Ti 16GB |
14B |
良い |
入門に最適 |
| 8万円 |
RX 9070 16GB |
14B |
良い |
Linux使いに |
| 16万円 |
RTX 5070 Ti 16GB |
14B(高速) |
良い |
兼用に最適 |
| 18万円 |
RX 7900 XTX 24GB |
32B |
非常に良い |
本気のAI用 |
| 20万円 |
RTX 5080 16GB |
14B(最速) |
良い |
速度重視 |
| 40万円〜 |
RTX 5090 32GB |
32B(余裕) |
非常に良い |
全部盛り |
「結局どれを買えばいい?」
まず試したいだけなら: 今持っているPCにLM StudioかOllamaを入れてみてください。GPUがなくてもCPUとメインメモリだけで動きます。速度はGPUの10分の1〜20分の1程度になりますが、文字がゆっくり出てくるのを読みながら待てるくらいの速さです。「ローカルAIってこんな感じか」と体験するには十分です。それで「もっと速く、もっと賢いモデルを動かしたい」と思ったらGPUを検討する、という順番でも遅くありません。
※ 参考:私のPCでCPUのみ(GPU不使用)で8Bモデルを動かしたところ、約8 tok/sでした(AMD Ryzen 9 3950X / DDR4メモリ 64GB / 2019年発売のCPU)。GPUを使った場合の127 tok/sと比べると約16分の1です。CPUモードではモデルをメインメモリに読み込むため、メインメモリの容量が足りないと動きません。8Bモデルで約5〜6GBのメモリを消費するので、OS等の使用分と合わせるとメインメモリは最低16GB、できれば32GB以上あると安心です。私のPCはメモリ64GBと多めなので余裕がありましたが、8GBのPCでは厳しいかもしれません。また、CPUの推論速度はメインメモリの帯域に左右されるため、DDR5搭載の新しいPCならもう少し速くなると思われます。
VRAMが足りなくても動く:部分オフロードという仕組み
LLMには画像生成AIと異なる特徴があります。画像生成(Stable Diffusion等)はモデル全体がVRAMに載っていないと動きませんが、LLMはモデルの一部だけをGPUに載せて、残りをメインメモリに置く「部分オフロード」ができます。
たとえば27Bモデル(本来18GB以上のVRAMが必要)を、12GBのGPU1枚で動かすことも可能です。速度は落ちますが、「動かないよりはマシ」という選択肢があります。
| ロード方式 |
GPUに載せた量 |
VRAM使用 |
速度 |
| GPU全レイヤー(2枚分散) |
全64層 |
26.2GB |
26.0 tok/s |
| GPU 30層 + メインメモリ |
64層中30層 |
11.8GB |
2.9 tok/s |
| GPU 15層 + メインメモリ |
64層中15層 |
7.0GB |
2.1 tok/s |
| CPUのみ |
0層 |
0GB |
1.7 tok/s |
※ qwen3.5:27bで実測。GPU: RTX 3090 + RTX 3060 / CPU: Ryzen 9 3950X / DDR4 64GB。2026年4月計測。
GPUに半分でも載せれば、CPUのみ(1.7 tok/s)より速くなります(2〜3 tok/s)。ただし全部GPUに載る場合(26 tok/s)と比べると10分の1程度まで落ちるので、快適とは言い難い速度です。
この仕組みがあるため、
VRAMが「ギリギリ足りない」場合でも、モデルサイズを理由に諦める必要はありません。速度を許容できるなら、VRAMの上限を超えたモデルに挑戦できます。Ollamaは自動的にVRAMに入りきらない分をメインメモリに回してくれるので、特別な設定は不要です。
14Bモデルで始めるなら: RTX 5060 Ti 16GB(約9〜11万円)。NVIDIAの16GBとしてはこの価格帯が最も手頃です。ただし品薄で値上がり中のため、在庫があるうちに。
MSI GeForce RTX 5060 Ti 16G VENTUS 2X OC PLUS グラフィックボード
32Bモデルを動かしたいなら: RX 7900 XTX(24GB / 約12万円〜)が価格的に最も現実的です。24GBのVRAMが12万円で手に入るのは2026年4月時点で破格と言えます。ただしAMDのAI処理基盤(ROCm)はLinux環境が推奨です。Windowsで使いたい場合は、NVIDIAのRTX 5080(16GB / 約19万円〜)か、中古のRTX 3090(24GB / 13〜20万円)が候補になります。
関連記事
中古GPUでローカルAIを始める:RTX 30/40世代のコスパを検証する
【2026年版】ローカルAI・VR・画像生成向けGPU全機種スペック一覧
次のステップ
ローカルAIを動かし始めたら、こんなこともできます:
- AI画像生成: 同じGPUでComfyUIを動かして、テキストから画像を生成
- 音声AI: Whisperで文字起こし、TTSで読み上げ
- コード補助: VS CodeのContinue拡張でローカルLLMをCopilot代わりに
- VRとの組み合わせ: AIアバターとの会話、VR空間内でのAI活用
「仮想世界とリアルをつなぐ」基盤として、自宅のGPUは最も万能な投資です。
この記事のスペック・価格情報は2026年4月時点のものです。
ディスカッション
コメント一覧
まだ、コメントがありません