Ollama入門:インストールから日本語チャットまで10分で始めるローカルAI
Ollamaとは
ローカルLLMを動かすための、現時点で最も簡単なツールです。
- Windows / Mac / Linux対応: どのOSでも同じように使える
- コマンド1つでモデルDL→実行: ターミナルに1行打つだけでAIチャットが始まる
- 無料・オープンソース: 利用料は一切かからない
- OpenAI互換API付き: ChatGPT用に作られたアプリやツールがそのまま動く
- モデルの管理が簡単: ダウンロード、削除、一覧表示がコマンド1つ
技術的な仕組みとしては、Ollamaがバックグラウンドでサーバーを起動し、localhost:11434でAPIを公開します。ターミナルからのチャットはもちろん、ブラウザUIやプログラミングからの呼び出しにも対応しています。
インストール手順(OS別)
Windows
- ollama.com にアクセス
- 「Download for Windows」をクリック
- ダウンロードされたインストーラー(OllamaSetup.exe)を実行
- 画面の指示に従ってインストール(特別な設定は不要)
- インストール完了後、PowerShellまたはコマンドプロンプトを開く
ollama --version
バージョンが表示されればインストール成功です。
Mac
Homebrewがある場合:
brew install ollama
インストーラーを使う場合:
- ollama.com にアクセス
- 「Download for macOS」をクリック
- ダウンロードされたアプリを「アプリケーション」フォルダにドラッグ
- Ollama.appを起動(メニューバーにアイコンが表示される)
ターミナルを開いて ollama --version で確認します。
Linux
ターミナルで1行実行するだけです。
curl -fsSL https://ollama.com/install.sh | sh
NVIDIA GPUを使う場合、CUDAドライバーが事前に必要です。nvidia-smi コマンドが動く状態であれば問題ありません。
# GPU認識の確認 nvidia-smi
GPUの名前とドライバーバージョンが表示されればOKです。
最初のモデルを動かす
インストールが終わったら、ターミナルで以下を実行します。
ollama run qwen3:8b
これだけです。初回はモデルのダウンロードが走ります。
ダウンロード:
- モデルサイズ: 約5.2GB
- 回線速度次第で1〜5分程度
- ダウンロードは初回のみ。2回目以降は即座に起動
起動:
- コールドスタート(モデルをVRAMに読み込む時間): RTX 3090で約2.1秒(実測)
- 読み込みが終わると
>>>プロンプトが表示され、すぐにチャット開始
試しに日本語で話しかけてみます。
>>> こんにちは。自己紹介してください。
日本語で応答が返ってくれば成功です。チャットを終了するには /bye と入力するか、Ctrl+D を押します。
おすすめモデル比較(実測データ)
Ollamaで使えるモデルは数百種類ありますが、日本語で実用的なものは限られます。私の環境で実測したデータをまとめます。
モデル別ベンチマーク
| モデル | DLサイズ | VRAM使用量 | 生成速度 (tok/s) | 日本語品質 | おすすめ用途 |
|---|---|---|---|---|---|
| ★ qwen3:8b | 5.2GB | 10.3GB | 126.4 | ○ そこそこ | 日常会話、簡単な質問 |
| ★ qwen3.5:9b | 6.6GB | 9.8GB | 98.0 | ○ 良い | 文章校正、コード補助 |
| ★ gemma4 (8B) | 9.6GB | 11.2GB | 133.0 | ○ 良い | 高速応答が欲しい時 |
| ★ qwen3.5:27b | 17.4GB | 18.2GB* | 25.5 | ◎ かなり良い | 本格的な質問応答、要約 |
計測環境: RTX 3090 (24GB) / Linux / Ollama 0.20.2 / 2026年4月計測
27bモデルは2GPU分散ロード(RTX 3090 + RTX 3060)での計測
このデータの見方
生成速度(tok/s)は「1秒あたりに生成されるトークン数」です。体感の目安はこうなります。
| tok/s | 体感 |
|---|---|
| 15以下 | 遅い。待つ感じ |
| 20 | ちょっと待つけど読める |
| 30 | 快適 |
| 40以上 | すぐ返ってくる |
qwen3:8bの126 tok/sは「文字が滝のように流れてくる」レベルです。人間の読む速度をはるかに超えているので、応答を待つストレスはゼロ。一方、qwen3.5:27bの25.5 tok/s(2GPU分散)は「快適」の範囲で、長めの回答でも自然に読めるペースです。
VRAM別おすすめ
VRAM 8GBなら8Bモデル一択。 qwen3:8bのVRAM使用量は10.3GBですが、4bit量子化版(q4_0)を使えば8GBに収まります。
16GBあれば9Bモデルが快適。 qwen3.5:9bやgemma4がフル精度で動きます。余裕をもって使える環境です。
24GB以上で27Bの世界へ。 qwen3.5:27bは18.2GBのVRAMを使います。RTX 3090(24GB)なら余裕あり。27Bモデルの日本語品質は8Bとは明確に一段上で、「え、これローカルで動いてるの?」と驚くレベルです。
基本コマンド一覧
Ollamaの操作はすべてターミナルから行います。覚えるコマンドは6つだけです。
| コマンド | 機能 | 使用例 |
|---|---|---|
ollama run <model> | チャット開始(未DLなら自動DL) | ollama run qwen3:8b |
ollama pull <model> | モデルのダウンロードのみ | ollama pull gemma4 |
ollama list | ダウンロード済みモデルの一覧 | ollama list |
ollama ps | 現在実行中のモデルを確認 | ollama ps |
ollama rm <model> | モデルを削除(ストレージ解放) | ollama rm qwen3:8b |
ollama show <model> | モデルの詳細情報を表示 | ollama show qwen3:8b |
よく使うパターン
モデルを試す:
ollama run qwen3:8b
使わないモデルを消してストレージを空ける:
ollama list # 一覧を確認 ollama rm gemma4 # 不要なモデルを削除
今何が動いているか確認:
ollama ps
VRAMの使用状況も表示されるので、「あれ、VRAMが足りない」というときの原因調査に便利です。
ChatGPTっぽいUIで使う(Open WebUI)
ターミナルでのチャットは動作確認には便利ですが、日常的に使うならブラウザUIがあったほうが快適です。Open WebUIを使えば、ChatGPTのような見た目でOllamaのモデルとチャットできます。
セットアップ(Docker 1コマンド)
Dockerがインストール済みであれば、以下を実行するだけです。
docker run -d -p 3000:8080 --gpus all \ -v ollama:/root/.ollama \ -v open-webui:/app/backend/data \ --name open-webui \ ghcr.io/open-webui/open-webui:ollama
起動後、ブラウザで http://localhost:3000 にアクセスすれば、チャット画面が表示されます。初回アクセス時にアカウント作成を求められますが、これはローカルのアカウントです(外部に送信されません)。
Open WebUIの便利な点
- 複数モデルの切り替え: プルダウンでqwen3:8bからgemma4に切り替えられる
- 会話履歴の保存: 過去のチャットがすべて残る。検索も可能
- ファイルアップロード: テキストファイルやPDFをドラッグ&ドロップで渡せる
- LAN内の他のPCやスマホからアクセス可能:
http://<サーバーのIPアドレス>:3000で家庭内の全デバイスから使える
GPU別の選び方ガイド
Ollamaを快適に使うために必要なGPUは、動かしたいモデルのサイズで決まります。
| GPU (VRAM) | 動かせるモデル | 生成速度の体感 | 中古価格帯(2026年4月時点) |
|---|---|---|---|
| GTX 1660 (6GB) | 4Bモデルのみ | 遅い(15 tok/s以下) | 中古 1〜2万円 |
| ★ RTX 3060 12GB | 8B〜12B | 実用的(60 tok/s) | 中古 2〜3.5万円 |
| RTX 4060 Ti 16GB | 14Bまで | 快適(23〜42 tok/s) | 中古 4.5〜6万円 |
| ★ RTX 3090 24GB | 27B〜32B | 本格的(25.5 tok/s〜) | 中古 13〜20万円 |
| Mac M4 Pro 24GB | 14B〜27B | 快適(20〜40 tok/s) | Mac本体の価格 |
この表の見方
VRAMの量が「どのサイズのモデルを動かせるか」を決め、モデルのサイズが「AIの賢さ」を決めます。つまりVRAMの量 ≒ AIの賢さの上限です。
- 「まず試してみたい」: RTX 3060 12GB(中古2〜3万円)で8Bモデル。日常的な質問には十分
- 「仕事でも使いたい」: RTX 4060 Ti 16GB(中古5万円前後)で14Bモデル。文章校正やコード補助が実用レベル
- 「本格的に活用したい」: RTX 3090 24GB(中古13万円〜)で27B〜32Bモデル。クラウドAIに近い品質
GPUの詳しい比較は「中古GPUでローカルAIを始める」の記事を参照してください。
よくある問題と対処
Ollamaは安定したソフトウェアですが、最初のセットアップで引っかかりやすいポイントがいくつかあります。
| 問題 | 原因 | 対処 |
|---|---|---|
| “out of memory" エラー | VRAMが足りない | より小さいモデルに変更する。8Bで出るなら4Bを試す |
| 応答が異常に遅い | GPUが認識されずCPUで動いている | nvidia-smi でGPUが見えるか確認。見えなければドライバー再インストール |
| 日本語が不自然 | モデルの日本語能力の限界 | qwen3系かgemma4系に切り替える。llama系は日本語が弱い |
| コールドスタートが長い(10秒以上) | モデルをVRAMに読み込み中 | 正常な動作。2回目以降は速い(モデルがメモリに残る) |
ollama run で接続エラー | Ollamaサーバーが起動していない | ollama serve で手動起動。Linuxなら systemctl start ollama |
| モデルのダウンロードが途中で止まる | ネットワークの問題 | 同じコマンドを再実行すれば途中から再開される |
GPUが認識されているか確認する方法
# NVIDIA GPUの場合 nvidia-smi
出力に自分のGPUの名前(例: “NVIDIA GeForce RTX 3090″)が表示されていればOKです。表示されない場合は、NVIDIAドライバーのインストールが必要です。
# Ollamaが使っているGPUを確認 ollama ps
ollama ps の出力に GPU の列があり、使用量が0%でなければ、GPUで推論が走っています。
並列利用のすすめ
Ollamaは複数のリクエストを同時に処理できます。つまり、1台のPCで家族や同僚が同時にAIを使えます。
実測データ
私の環境(RTX 3090)で並列アクセスの性能を計測しました。
qwen3:8b(8Bモデル):
- 1人で使用: 126.4 tok/s
- 128人同時アクセス: 125.6 tok/s(速度低下わずか0.6%)
qwen3.5:27b(27Bモデル):
- 1人で使用: 25.5 tok/s
- 8人同時アクセス: 25.8 tok/s(速度低下ほぼなし)
8Bモデルであれば、128人が同時にアクセスしてもほとんど速度が落ちません。家庭内で家族3〜4人が同時に使う程度なら、性能面の心配はまったく不要です。
共有の方法
Open WebUIを使えば、家庭内の共有は簡単です。
- Open WebUIを起動したPCのIPアドレスを確認(例:
192.168.1.100) - 他のPC・スマホ・タブレットのブラウザで
http://192.168.1.100:3000にアクセス - 各自のアカウントを作成してログイン
アカウントごとに会話履歴が分かれるので、プライバシーも保たれます。
まとめ
Ollamaのセットアップは、ここまで書いてきた通り10分で終わります。
- インストール: OS別に1コマンドまたはインストーラー実行
- 最初のチャット:
ollama run qwen3:8bで日本語チャットが始まる - ブラウザUI: Open WebUIを入れればChatGPTのような使い心地
- 家族と共有: LAN内の全デバイスからアクセス可能
最初のハードルはGPU選びですが、RTX 3060 12GBの中古(2〜3万円)があれば8Bモデルで十分実用的です。すでにGPUを持っているなら、今すぐ ollama run qwen3:8b を試してみてください。
記事で紹介したGPU
一度ローカルAIの便利さを体験すると、「これ、外部に送らなくていいんだ」という安心感と、「月額料金がかからない」という気楽さで、手放せなくなります。私がそうでした。
・「自宅でAIチャットボットを動かしたい:予算別にできることガイド」— ローカルAIに何が必要か、予算帯ごとに解説
・「中古GPUでローカルAIを始める:RTX 30/40世代のコスパを検証する」— GPU選びの詳細比較
この記事の価格・ベンチマーク情報は2026年4月時点のものです。Ollamaのコマンド体系やモデルのラインナップは更新される可能性があります。最新情報はollama.comを確認してください。