自宅でAIチャットボットを動かしたい:予算別にできることガイド

目次
クラウドAIとローカルAIの違い
| クラウドAI | ローカルAI | |
|---|---|---|
| プライバシー | 会話内容がサーバーに送られる | 全てPC内で完結。外部に出ない |
| 月額コスト | ChatGPT Plus 月3,000円 / Claude Pro 月3,000円 | 0円(電気代のみ。GPU稼働時 約50〜150W) |
| 初期コスト | 0円 | GPU代 6〜40万円 |
| 1年間の総コスト | 約36,000円 | GPU代 + 電気代 約3,000〜6,000円/年 |
| ネット接続 | 必須 | 不要(オフラインで動く) |
| モデルの賢さ | GPT-4o / Claude 3.5等の最新モデル | 8B〜32Bモデル(GPUのVRAM次第) |
| 応答速度 | 40〜80 tok/s | 20〜130 tok/s(GPU性能次第) |
ローカルAIはVRAMの容量で決まる
ローカルLLMを試してみて実感したのは、「何ができるか」はほぼVRAM(GPUのメモリ)の量で決まるということです。ローカルLLMの性能を決める要素 (バーが長いほど影響が大きい)
| 1. VRAM容量 |
動かせるモデルの大きさが決まる(最重要) |
| 2. メモリ帯域 |
1秒に何文字出るかに直結 |
| 3. GPU演算性能 |
意外と差が出ない |
| 4. CPU/RAM |
補助的 |
「27B」「8B」って何の数字?
ローカルAIの記事で「8Bモデル」「27Bモデル」という表記をよく見かけます。このB(Billion=10億)はAIモデルのパラメータ数のことで、いわば「脳の大きさ」です。数字が大きいほど賢くなりますが、その分GPUのメモリ(VRAM)を多く消費します。 身近なAIと比べると、イメージしやすいと思います。| モデルサイズ | パラメータ数 | 必要なVRAM | 身近なAIで例えると |
|---|---|---|---|
| 2〜4B | 20〜40億個 | 約2〜4GB | スマホに搭載されたAI(Apple IntelligenceやGemini Nano)と同程度。文章の要約や簡単な受け答えはできるが、込み入った話は苦手 |
| 8B | 80億個 | 約5〜6GB | ChatGPT無料版の軽量モデル(GPT-4o mini)と同等クラス。日常会話や簡単な質問なら実用的 |
| 14B | 140億個 | 約10〜11GB | ChatGPT無料版(GPT-4o mini)を超え始めるライン。日本語の自然さがぐっと上がる。個人的にはここからが実用的 |
| 27〜32B | 270〜320億個 | 約17〜22GB | ChatGPT Plus(GPT-4oクラス)に迫る品質。「これがローカルで動くの?」と驚くレベル |
| 70B〜 | 700億個〜 | 45GB〜 | ChatGPT Plusと同等かそれ以上。ただし一般的なGPU1枚では動かない |
| GPU | モデル | 生成速度 | VRAM使用量 |
|---|---|---|---|
| RTX 3090 24GB | qwen3.5:27b | ★ 25.5 tok/s | 18.2GB(2枚に分散) |
| RTX 3090 24GB | qwen3:8b | ★ 126.4 tok/s | 10.3GB |
| RTX 3060 12GB | qwen3:8b | ★ 60.1 tok/s | 5.5GB |
| VRAM | 動かせるモデル | 代表的なモデル | 生成速度目安 | GPU価格帯 |
|---|---|---|---|---|
| 8GB | 8B | Qwen 3 8B, Llama 3.1 8B, Gemma 3 4B | 60〜130 tok/s | 6〜7万円 |
| 12GB | 8B〜12B | Gemma 3 12B, Qwen 3 8B(余裕) | 35〜130 tok/s | 5〜8万円 |
| 16GB | 14B | Qwen 3 14B, DeepSeek-R1 14B, Gemma 3 12B | 23〜72 tok/s | 8〜16万円 |
| 24GB | 32B | Qwen 3 32B, Gemma 3 27B, DeepSeek-R1 32B | 20〜35 tok/s | 18〜25万円 |
| 32GB | 32B+長文 | Qwen 3 32B(32Kコンテキスト) | 50〜60 tok/s | 40万円〜 |
実測:モデル別の生成速度
このグラフの見方: バーが長いほど生成速度が速い(=快適)です。gemma4が最速ですが、日本語の品質ではqwen3.5:27bが最も優れています。速さと賢さはトレードオフの関係です。qwen3.5:27b (3090+3060)
26 tok/s
qwen3.5:9b (3060)
98.8 tok/s
qwen3:8b (3090)
127 tok/s
gemma4:9b (3090)
133 tok/s
あなたに必要なVRAMは?
| やりたいこと | 必要VRAM | モデル目安 | 生成速度目安 |
|---|---|---|---|
| AIを試してみたい | 8GB | 8B(5〜6GB使用) | 60〜130 tok/s |
| 日本語で実用的に使いたい | 16GB | 14B(10〜11GB使用) | 23〜72 tok/s |
| 仕事で本格的に頼りたい | 24GB | 32B(22GB使用) | 20〜35 tok/s |
| 全部盛り(AI+VR+画像生成) | 32GB | 32B+長コンテキスト | 50〜60 tok/s |
GPUメーカー別:どれが一番ラクに動く?
VRAMの次に大事なのが「そのGPUでちゃんと動くのか」です。GPUメーカーによって、セットアップの手間がかなり違います。| GPUメーカー | セットアップ | Windows | Mac | Linux |
|---|---|---|---|---|
| NVIDIA (CUDA) | ドライバ入れるだけ | ◎ | – | ◎ |
| AMD | Linuxなら良好。WindowsではAMD用のAI処理基盤(ROCm)の対応が不完全で、セットアップに手間がかかる | △ | – | ○ |
| Apple Silicon | Ollama入れるだけ。メモリ共有で大型モデルも可 | – | ◎ | – |
| Intel (iGPU) | 対応が限定的。速度も遅め | △ | – | △ |
始め方:4つのアプリから選ぶ
ローカルLLMを動かすアプリはいくつかあります。私はOllamaを使っていますが、自分に合うものを選ぶのが一番です。ローカルLLMアプリ比較
| アプリ | 特徴 | おすすめな人 | OS |
|---|---|---|---|
| LM Studio | GUIでモデル検索〜チャットまで完結。一番とっつきやすい | 初めての人 | Win/Mac/Linux |
| Ollama + Open WebUI | コマンドラインで導入。ブラウザUIはOpen WebUIで追加 | 自分で構成を組みたい人 | Win/Mac/Linux |
| Jan | プライバシー特化。デスクトップアプリとして完結 | シンプルに使いたい人 | Win/Mac/Linux |
| GPT4All | 軽量。設定項目が少なく迷わない | 軽く試したい人 | Win/Mac/Linux |
Ollamaの始め方(参考)
- ollama.com からインストーラーをダウンロード
- インストール(Windows / Mac / Linux対応)
- ターミナルで「ollama run qwen3:8b」と入力
- チャットが始まる
Windows・Mac・Linuxで何が変わる?
OSによって体験がけっこう変わるので、整理しておきます。| OS | メリット | デメリット | 向いている人 |
|---|---|---|---|
| Windows | NVIDIAならセットアップが一番簡単。LM Studio等のGUIアプリも充実 | VRAMのオーバーヘッドがLinuxより少し大きい。AMD GPUはセットアップに手間がかかる | NVIDIA GPU + 手軽に始めたい人 |
| Mac | Apple Siliconのユニファイドメモリで大型モデルが動く。電力効率が良い | 専用GPUより生成速度が遅い。本体が高価 | Macがメイン機の人。持ち運びたい人 |
| Linux | メモリ効率が最も高い。AMDのAI処理基盤(ROCm)もLinuxなら安定動作。Docker運用もラク | 環境構築に技術的な知識が必要 | AMD GPUの人。サーバー的に使いたい人 |
中古GPUという選択肢
新品だけが選択肢ではありません。私のRTX 3090は発売当時に定価の約30万円で買ったもの、サブ機のRTX 3060 12GBは中古で約4万円でした。 中古で特にコスパが良いのは以下の2つです。| GPU | VRAM | 中古相場(ショップ) | 動くモデル | ポイント |
|---|---|---|---|---|
| RTX 3060 12GB | 12GB | 2〜3.5万円 | 8Bモデル | 入門最安。12GBが2万円台 |
| RTX 4060 Ti 16GB | 16GB | 7〜10万円 | 14Bモデル | 穴場。16GBが新品の半額 |
| RTX 3090 24GB | 24GB | 13〜20万円 | 32Bモデル | AI需要で高止まり中 |
予算別:あなたのGPUで何ができるか
ここからは具体的な予算帯ごとに、どのGPUで何が動くのかを整理します。上で書いた通り、判断基準は「VRAMが何GB載っているか」が最優先、次に「NVIDIAかどうか」です。新品の価格帯で整理していますが、中古も視野に入れるなら上の比較表を参照してください。予算6〜7万円帯(RTX 5060 / RTX 5060 Ti 8GB)
VRAM 8GB でできること:| やりたいこと | できる? | 体感 |
|---|---|---|
| 日常の質問応答(天気、料理、雑談) | ◎ | 十分実用的 |
| 簡単なコード補助 | ○ | 短いコードなら |
| 日本語の文章校正 | ○ | 8Bモデルでもそこそこ |
| 長文の要約(論文、議事録) | △ | コンテキストが短い(2K〜4Kトークン) |
| 複雑な推論・分析 | △ | 8Bモデルの限界 |
| 翻訳(日英) | ○ | 簡単な文ならOK |
| モデル | VRAM使用量 | 生成速度目安 | 日本語 |
|---|---|---|---|
| Qwen 3 8B | 約5.2GB | 65 tok/s | そこそこ |
| Llama 3.1 8B | 約6.2GB | 56 tok/s | 英語向き |
| Gemma 3 4B | 約3.6GB | 112 tok/s | 簡易 |
予算9〜11万円帯(RTX 5060 Ti 16GB / RX 9070)
VRAM 16GB でできること:| やりたいこと | できる? | 体感 |
|---|---|---|
| 日常の質問応答 | ◎ | 快適 |
| コード補助(中程度) | ◎ | 関数単位なら実用的 |
| 日本語の文章校正・リライト | ◎ | 14Bモデルは日本語がかなり良い |
| 長文の要約 | ○ | 8K〜16Kトークンまでなら |
| メールの下書き作成 | ◎ | 実用レベル |
| 技術的な質問応答 | ○ | 14Bなりの深さ |
| 小説・ブログ記事の草稿 | ○ | たたき台としては使える |
| モデル | VRAM使用量 | 生成速度目安 | 日本語 | 特徴 |
|---|---|---|---|---|
| Qwen 3 14B | 約10.7GB | 36〜72 tok/s | 良い | 日本語が一段上。個人的にはここから「使える」 |
| Gemma 3 12B | 約12.4GB | 27〜54 tok/s | 良い | Googleの12B。バランス型 |
| DeepSeek-R1-Distill 14B | 約11GB | 31〜61 tok/s | やや良い | 推論(考えてから答える)が得意 |
予算16万円帯(RTX 5070 Ti 16GB)
VRAM 16GB(高速)でできること: できることは16GB帯と同じですが、速度が違います。| 比較 | RTX 5060 Ti 16GB | RTX 5070 Ti 16GB |
|---|---|---|
| Qwen 3 14B 生成速度 | 約23 tok/s | 約72 tok/s |
| 体感 | 「少し待つ」 | 「すぐ返ってくる」 |
| AI画像生成との兼用 | やや遅い | 快適 |
| VRとの兼用 | 入門レベル | 快適 |
予算12〜30万円帯(RX 7900 XTX 24GB / RTX 5080 16GB)
ここから「本気のローカルAI」。 VRAM 24GB(RX 7900 XTX)でできること:| やりたいこと | できる? | 体感 |
|---|---|---|
| 上記の全て | ◎ | 快適 |
| 32Bモデル(Qwen 3 32B等) | ◎ | 「思ったより賢い」と驚く |
| 長文の分析・要約 | ◎ | 16K〜32Kトークンが実用域 |
| 複数文書の横断分析 | ○ | できるが速度は落ちる |
| コード補助(ファイル全体) | ◎ | 32Bモデルのコード理解力は高い |
| 専門的な質問応答 | ◎ | 医学、法律、技術等もかなりの精度 |
| モデル | VRAM使用量 | 生成速度目安 | 日本語 | 特徴 |
|---|---|---|---|---|
| Qwen 3 32B | 約22.2GB | 32 tok/s | 非常に良い | 「ローカルでこれが動くのか」と驚くレベル |
| Gemma 3 27B | 約22.5GB | 41 tok/s | 非常に良い | Googleの大型モデル |
| DeepSeek-R1-Distill 32B | 約22GB | 32 tok/s | 良い | 推論チェーンが深い |
予算40〜61万円帯(RTX 5090 32GB)
VRAM 32GBでできること: 32Bモデルを超長コンテキスト(32K+トークン)で余裕を持って運用。32GBあっても70Bモデルには足りません(45GB+必要)。 ローカルAIだけのために買うにはオーバースペック。VR(120Hz最高設定)+ AI画像生成(FLUX Dev)+ ローカルLLM(32B)を1枚で全部やりたい「全部盛り」の人向け。 コスパ: ★★☆☆☆(全部盛りなら理解できるが、AI専用には高すぎ)GPU別コスパグラフ
ローカルLLM コスパランキング
このグラフの見方: バーが長いほど「価格に対して性能が高い」=コスパが良いGPUです。コスパ指標は「実用性能スコア ÷ 価格(万円)」で算出しています。RTX 5090 32GB [新品]
2.4
RTX 4090 24GB [中古]
2.9
RX 7900XTX 24GB [新品]
3.3
RTX 5080 16GB [新品]
3.5
RTX 4080S 16GB [中古]
4.2
RTX 5070Ti 16GB [新品]
4.5
RTX 5060Ti 16GB [新品]
4.7
RTX 4070TiS 16GB [中古]
5
RX 9070 16GB [新品]
5
RTX 4060Ti 16GB [中古]
3.8
RTX 4070S 12GB [中古]
5.6
RTX 5060Ti 8GB [新品]
5.7
RTX 5060 8GB [新品]
5.8
RTX 3090 24GB [中古]
5.8
RTX 5070 12GB [新品]
6
RTX 3080 12GB [中古]
7.5
RTX 3060 12GB [中古]
8
グラフから読み取れること
- RX 9070(16GB / 8万円)がコスパ最高。ただしAMDのAI処理基盤(ROCm)はLinux推奨で、Windowsでは設定に手間がかかります
- RTX 5060 Ti 16GB(9〜11万円)がNVIDIA勢ではコスパ最強。16GBのVRAMを約9〜11万円で得られるのは、14Bモデルを実用的に動かす最安ライン
- RTX 5080(19〜30万円)やRTX 5090(40〜61万円)はコスパでは不利。性能は高いが価格も高いので、指標としては低くなります。予算に余裕がある人、またはAI以外の用途(VR、ゲーム)と兼用する人向けです
- RTX 5090(40〜61万円)は「全部盛り」向け。LLMだけのために買うには高すぎるが、VR+画像生成+LLMの兼用なら納得感がある
モデル別 日本語コスパランキング
このグラフの見方: バーが長いほど「少ないVRAMで高い日本語品質が得られる」=コスパが良いモデルです。指標は「日本語品質(5段階)÷ 必要VRAM(GB)×10」で算出。★印の14Bモデル(Qwen 3 14B、DeepSeek-R1 14B)が実用ラインです。これより上のモデルは日本語品質が高いものの、必要なVRAMも大きくなるため、コスパ指標としては下がります。Gemma 3 27B (22.5GB)
2
Qwen 3 32B (22.2GB)
2
Gemma 3 12B (12.4GB)
2.8
★ DeepSeek-R1 14B (11.0GB)
3.2
★ Qwen 3 14B (10.7GB)
3.7
Llama 3.1 8B (6.2GB)
4
Gemma 3 4B (3.6GB)
5.6
Qwen 3 8B (5.2GB)
5.8
トークンと日本語文字数の目安
記事内で「tok/s(トークン毎秒)」という単位を使っています。日本語の場合、1トークンは約1〜1.2文字に相当します(Qwen3で実測)。つまり126 tok/sは1秒間に約120文字以上を生成する計算です。コスパ早見表
| 予算 | GPU | 動くモデル | 日本語品質 | おすすめ度 |
|---|---|---|---|---|
| 6〜7万円 | RTX 5060 Ti 8GB | 8B | まあまあ | お試し |
| 9万円 | RTX 5060 Ti 16GB | 14B | 良い | 入門に最適 |
| 8万円 | RX 9070 16GB | 14B | 良い | Linux使いに |
| 16万円 | RTX 5070 Ti 16GB | 14B(高速) | 良い | 兼用に最適 |
| 18万円 | RX 7900 XTX 24GB | 32B | 非常に良い | 本気のAI用 |
| 20万円 | RTX 5080 16GB | 14B(最速) | 良い | 速度重視 |
| 40万円〜 | RTX 5090 32GB | 32B(余裕) | 非常に良い | 全部盛り |
「結局どれを買えばいい?」
まず試したいだけなら: 今持っているPCにLM StudioかOllamaを入れてみてください。GPUがなくてもCPUとメインメモリだけで動きます。速度はGPUの10分の1〜20分の1程度になりますが、文字がゆっくり出てくるのを読みながら待てるくらいの速さです。「ローカルAIってこんな感じか」と体験するには十分です。それで「もっと速く、もっと賢いモデルを動かしたい」と思ったらGPUを検討する、という順番でも遅くありません。 ※ 参考:私のPCでCPUのみ(GPU不使用)で8Bモデルを動かしたところ、約8 tok/sでした(AMD Ryzen 9 3950X / DDR4メモリ 64GB / 2019年発売のCPU)。GPUを使った場合の126 tok/sと比べると約16分の1です。CPUモードではモデルをメインメモリに読み込むため、メインメモリの容量が足りないと動きません。8Bモデルで約5〜6GBのメモリを消費するので、OS等の使用分と合わせるとメインメモリは最低16GB、できれば32GB以上あると安心です。私のPCはメモリ64GBと多めなので余裕がありましたが、8GBのPCでは厳しいかもしれません。また、CPUの推論速度はメインメモリの帯域に左右されるため、DDR5搭載の新しいPCならもう少し速くなると思われます。VRAMが足りなくても動く:部分オフロードという仕組み
LLMには画像生成AIと異なる特徴があります。画像生成(Stable Diffusion等)はモデル全体がVRAMに載っていないと動きませんが、LLMはモデルの一部だけをGPUに載せて、残りをメインメモリに置く「部分オフロード」ができます。 たとえば27Bモデル(本来18GB以上のVRAMが必要)を、12GBのGPU1枚で動かすことも可能です。速度は落ちますが、「動かないよりはマシ」という選択肢があります。| ロード方式 | GPUに載せた量 | VRAM使用 | 速度 |
|---|---|---|---|
| GPU全レイヤー(2枚分散) | 全64層 | 26.2GB | 25.5 tok/s |
| GPU 30層 + メインメモリ | 64層中30層 | 11.8GB | 2.9 tok/s |
| GPU 15層 + メインメモリ | 64層中15層 | 7.0GB | 2.1 tok/s |
| CPUのみ | 0層 | 0GB | 1.7 tok/s |
関連記事
中古GPUでローカルAIを始める:RTX 30/40世代のコスパを検証する
【2026年版】ローカルAI・VR・画像生成向けGPU全機種スペック一覧
次のステップ
ローカルAIを動かし始めたら、こんなこともできます:- AI画像生成: 同じGPUでComfyUIを動かして、テキストから画像を生成
- 音声AI: Whisperで文字起こし、TTSで読み上げ
- コード補助: VS CodeのContinue拡張でローカルLLMをCopilot代わりに
- VRとの組み合わせ: AIアバターとの会話、VR空間内でのAI活用









ディスカッション
コメント一覧
まだ、コメントがありません