Ollama入門:インストールから日本語チャットまで10分で始めるローカルAI

毎日OllamaでローカルLLM、いわゆる自分のPC上で動くAIチャットを使っています。GPU2枚挿し環境で、チャット、文章校正、コード補助、画像の説明まで、クラウドに一切送らずに完結しています。 本記事では、Ollamaのインストールから実用的に使えるようになるまでの手順を、実測データ付きでまとめました。予算別ガイドの記事で「ローカルAIを動かすのに何が必要か」を解説しましたが、今回はその先——実際に手を動かしてOllamaをセットアップする手順です。 結論としては、Ollamaのセットアップは数ステップで完了します。10分もあれば日本語でチャットできる状態になります。

Ollamaとは

ローカルLLMを動かすための、現時点で最も簡単なツールです。

  • Windows / Mac / Linux対応: どのOSでも同じように使える
  • コマンド1つでモデルDL→実行: ターミナルに1行打つだけでAIチャットが始まる
  • 無料・オープンソース: 利用料は一切かからない
  • OpenAI互換API付き: ChatGPT用に作られたアプリやツールがそのまま動く
  • モデルの管理が簡単: ダウンロード、削除、一覧表示がコマンド1つ

技術的な仕組みとしては、Ollamaがバックグラウンドでサーバーを起動し、localhost:11434でAPIを公開します。ターミナルからのチャットはもちろん、ブラウザUIやプログラミングからの呼び出しにも対応しています。

インストール手順(OS別)

Windows

  1. ollama.com にアクセス
  2. 「Download for Windows」をクリック
  3. ダウンロードされたインストーラー(OllamaSetup.exe)を実行
  4. 画面の指示に従ってインストール(特別な設定は不要)
  5. インストール完了後、PowerShellまたはコマンドプロンプトを開く
ollama --version

バージョンが表示されればインストール成功です。

Mac

Homebrewがある場合:

brew install ollama

インストーラーを使う場合:

  1. ollama.com にアクセス
  2. 「Download for macOS」をクリック
  3. ダウンロードされたアプリを「アプリケーション」フォルダにドラッグ
  4. Ollama.appを起動(メニューバーにアイコンが表示される)

ターミナルを開いて ollama --version で確認します。

Linux

ターミナルで1行実行するだけです。

curl -fsSL https://ollama.com/install.sh | sh

NVIDIA GPUを使う場合、CUDAドライバーが事前に必要です。nvidia-smi コマンドが動く状態であれば問題ありません。

# GPU認識の確認
nvidia-smi

GPUの名前とドライバーバージョンが表示されればOKです。

注意: インストールコマンドやUIは今後変わる可能性があります。うまくいかない場合はollama.comの最新の手順を確認してください。

最初のモデルを動かす

インストールが終わったら、ターミナルで以下を実行します。

ollama run qwen3:8b

これだけです。初回はモデルのダウンロードが走ります。

ダウンロード:

  • モデルサイズ: 約5.2GB
  • 回線速度次第で1〜5分程度
  • ダウンロードは初回のみ。2回目以降は即座に起動

起動:

  • コールドスタート(モデルをVRAMに読み込む時間): RTX 3090で約2.1秒(実測)
  • 読み込みが終わると >>> プロンプトが表示され、すぐにチャット開始

試しに日本語で話しかけてみます。

>>> こんにちは。自己紹介してください。

日本語で応答が返ってくれば成功です。チャットを終了するには /bye と入力するか、Ctrl+D を押します。

実体験: 私の環境(RTX 3090)では、qwen3:8bの起動から最初の応答まで約3秒でした。文字がストリーミングで流れてくるので、体感はもっと速く感じます。回線の速い環境なら、コマンドを打ってから3分で「ローカルAIと日本語で会話している」状態になります。

おすすめモデル比較(実測データ)

Ollamaで使えるモデルは数百種類ありますが、日本語で実用的なものは限られます。私の環境で実測したデータをまとめます。

モデル別ベンチマーク

モデルDLサイズVRAM使用量生成速度 (tok/s)日本語品質おすすめ用途
★ qwen3:8b5.2GB10.3GB126.4○ そこそこ日常会話、簡単な質問
★ qwen3.5:9b6.6GB9.8GB98.0○ 良い文章校正、コード補助
★ gemma4 (8B)9.6GB11.2GB133.0○ 良い高速応答が欲しい時
★ qwen3.5:27b17.4GB18.2GB*25.5◎ かなり良い本格的な質問応答、要約

計測環境: RTX 3090 (24GB) / Linux / Ollama 0.20.2 / 2026年4月計測
27bモデルは2GPU分散ロード(RTX 3090 + RTX 3060)での計測

★ = 筆者実測値(RTX 3090 / RTX 3060、2026年4月)。推定値の計算方法はGPU全機種スペック一覧を参照。

このデータの見方

生成速度(tok/s)は「1秒あたりに生成されるトークン数」です。体感の目安はこうなります。

tok/s体感
15以下遅い。待つ感じ
20ちょっと待つけど読める
30快適
40以上すぐ返ってくる

qwen3:8bの126 tok/sは「文字が滝のように流れてくる」レベルです。人間の読む速度をはるかに超えているので、応答を待つストレスはゼロ。一方、qwen3.5:27bの25.5 tok/s(2GPU分散)は「快適」の範囲で、長めの回答でも自然に読めるペースです。

VRAM別おすすめ

VRAM 8GBなら8Bモデル一択。 qwen3:8bのVRAM使用量は10.3GBですが、4bit量子化版(q4_0)を使えば8GBに収まります。

16GBあれば9Bモデルが快適。 qwen3.5:9bやgemma4がフル精度で動きます。余裕をもって使える環境です。

24GB以上で27Bの世界へ。 qwen3.5:27bは18.2GBのVRAMを使います。RTX 3090(24GB)なら余裕あり。27Bモデルの日本語品質は8Bとは明確に一段上で、「え、これローカルで動いてるの?」と驚くレベルです。

基本コマンド一覧

Ollamaの操作はすべてターミナルから行います。覚えるコマンドは6つだけです。

コマンド機能使用例
ollama run <model>チャット開始(未DLなら自動DL)ollama run qwen3:8b
ollama pull <model>モデルのダウンロードのみollama pull gemma4
ollama listダウンロード済みモデルの一覧ollama list
ollama ps現在実行中のモデルを確認ollama ps
ollama rm <model>モデルを削除(ストレージ解放)ollama rm qwen3:8b
ollama show <model>モデルの詳細情報を表示ollama show qwen3:8b

よく使うパターン

モデルを試す:

ollama run qwen3:8b

使わないモデルを消してストレージを空ける:

ollama list          # 一覧を確認
ollama rm gemma4  # 不要なモデルを削除

今何が動いているか確認:

ollama ps

VRAMの使用状況も表示されるので、「あれ、VRAMが足りない」というときの原因調査に便利です。

ChatGPTっぽいUIで使う(Open WebUI)

ターミナルでのチャットは動作確認には便利ですが、日常的に使うならブラウザUIがあったほうが快適です。Open WebUIを使えば、ChatGPTのような見た目でOllamaのモデルとチャットできます。

セットアップ(Docker 1コマンド)

Dockerがインストール済みであれば、以下を実行するだけです。

docker run -d -p 3000:8080 --gpus all \
  -v ollama:/root/.ollama \
  -v open-webui:/app/backend/data \
  --name open-webui \
  ghcr.io/open-webui/open-webui:ollama

起動後、ブラウザで http://localhost:3000 にアクセスすれば、チャット画面が表示されます。初回アクセス時にアカウント作成を求められますが、これはローカルのアカウントです(外部に送信されません)。

Open WebUIの便利な点

  • 複数モデルの切り替え: プルダウンでqwen3:8bからgemma4に切り替えられる
  • 会話履歴の保存: 過去のチャットがすべて残る。検索も可能
  • ファイルアップロード: テキストファイルやPDFをドラッグ&ドロップで渡せる
  • LAN内の他のPCやスマホからアクセス可能: http://<サーバーのIPアドレス>:3000 で家庭内の全デバイスから使える
実体験: 私の環境では、妻がiPadのブラウザからOpen WebUIにアクセスして料理のレシピを聞いています。Ollamaのインストールもターミナル操作も不要で、ChatGPTと同じ感覚で使えるのが良いところです。サーバーのIPアドレスをブックマークしておくだけ。
注意: Dockerを使わずにOllamaを既にインストール済みの場合は、別の起動コマンドになります。Open WebUIの公式リポジトリで最新のインストール方法を確認してください。

GPU別の選び方ガイド

Ollamaを快適に使うために必要なGPUは、動かしたいモデルのサイズで決まります。

GPU (VRAM)動かせるモデル生成速度の体感中古価格帯(2026年4月時点)
GTX 1660 (6GB)4Bモデルのみ遅い(15 tok/s以下)中古 1〜2万円
★ RTX 3060 12GB8B〜12B実用的(60 tok/s)中古 2〜3.5万円
RTX 4060 Ti 16GB14Bまで快適(23〜42 tok/s)中古 4.5〜6万円
★ RTX 3090 24GB27B〜32B本格的(25.5 tok/s〜)中古 13〜20万円
Mac M4 Pro 24GB14B〜27B快適(20〜40 tok/s)Mac本体の価格
★ = 筆者実測値(RTX 3090 / RTX 3060、2026年4月)。推定値の計算方法はGPU全機種スペック一覧を参照。

この表の見方

VRAMの量が「どのサイズのモデルを動かせるか」を決め、モデルのサイズが「AIの賢さ」を決めます。つまりVRAMの量 ≒ AIの賢さの上限です。

  • 「まず試してみたい」: RTX 3060 12GB(中古2〜3万円)で8Bモデル。日常的な質問には十分
  • 「仕事でも使いたい」: RTX 4060 Ti 16GB(中古5万円前後)で14Bモデル。文章校正やコード補助が実用レベル
  • 「本格的に活用したい」: RTX 3090 24GB(中古13万円〜)で27B〜32Bモデル。クラウドAIに近い品質

GPUの詳しい比較は「中古GPUでローカルAIを始める」の記事を参照してください。

よくある問題と対処

Ollamaは安定したソフトウェアですが、最初のセットアップで引っかかりやすいポイントがいくつかあります。

問題原因対処
“out of memory" エラーVRAMが足りないより小さいモデルに変更する。8Bで出るなら4Bを試す
応答が異常に遅いGPUが認識されずCPUで動いているnvidia-smi でGPUが見えるか確認。見えなければドライバー再インストール
日本語が不自然モデルの日本語能力の限界qwen3系かgemma4系に切り替える。llama系は日本語が弱い
コールドスタートが長い(10秒以上)モデルをVRAMに読み込み中正常な動作。2回目以降は速い(モデルがメモリに残る)
ollama run で接続エラーOllamaサーバーが起動していないollama serve で手動起動。Linuxなら systemctl start ollama
モデルのダウンロードが途中で止まるネットワークの問題同じコマンドを再実行すれば途中から再開される

GPUが認識されているか確認する方法

# NVIDIA GPUの場合
nvidia-smi

出力に自分のGPUの名前(例: “NVIDIA GeForce RTX 3090″)が表示されていればOKです。表示されない場合は、NVIDIAドライバーのインストールが必要です。

# Ollamaが使っているGPUを確認
ollama ps

ollama ps の出力に GPU の列があり、使用量が0%でなければ、GPUで推論が走っています。

並列利用のすすめ

Ollamaは複数のリクエストを同時に処理できます。つまり、1台のPCで家族や同僚が同時にAIを使えます。

実測データ

私の環境(RTX 3090)で並列アクセスの性能を計測しました。

qwen3:8b(8Bモデル):

  • 1人で使用: 126.4 tok/s
  • 128人同時アクセス: 125.6 tok/s(速度低下わずか0.6%)

qwen3.5:27b(27Bモデル):

  • 1人で使用: 25.5 tok/s
  • 8人同時アクセス: 25.8 tok/s(速度低下ほぼなし)

8Bモデルであれば、128人が同時にアクセスしてもほとんど速度が落ちません。家庭内で家族3〜4人が同時に使う程度なら、性能面の心配はまったく不要です。

共有の方法

Open WebUIを使えば、家庭内の共有は簡単です。

  1. Open WebUIを起動したPCのIPアドレスを確認(例: 192.168.1.100
  2. 他のPC・スマホ・タブレットのブラウザで http://192.168.1.100:3000 にアクセス
  3. 各自のアカウントを作成してログイン

アカウントごとに会話履歴が分かれるので、プライバシーも保たれます。

まとめ

Ollamaのセットアップは、ここまで書いてきた通り10分で終わります。

  1. インストール: OS別に1コマンドまたはインストーラー実行
  2. 最初のチャット: ollama run qwen3:8b で日本語チャットが始まる
  3. ブラウザUI: Open WebUIを入れればChatGPTのような使い心地
  4. 家族と共有: LAN内の全デバイスからアクセス可能

最初のハードルはGPU選びですが、RTX 3060 12GBの中古(2〜3万円)があれば8Bモデルで十分実用的です。すでにGPUを持っているなら、今すぐ ollama run qwen3:8b を試してみてください。

記事で紹介したGPU

【中古】ELSA GeForce RTX 3060 S.A.C/L GD3060-12GEBSH4 12GB
created by Rinker
ELSA
MSI GeForce RTX 5060 Ti 16G VENTUS 2X OC PLUS グラフィックボード
created by Rinker
MSI

一度ローカルAIの便利さを体験すると、「これ、外部に送らなくていいんだ」という安心感と、「月額料金がかからない」という気楽さで、手放せなくなります。私がそうでした。

関連記事
・「自宅でAIチャットボットを動かしたい:予算別にできることガイド」— ローカルAIに何が必要か、予算帯ごとに解説
・「中古GPUでローカルAIを始める:RTX 30/40世代のコスパを検証する」— GPU選びの詳細比較

この記事の価格・ベンチマーク情報は2026年4月時点のものです。Ollamaのコマンド体系やモデルのラインナップは更新される可能性があります。最新情報はollama.comを確認してください。