Ollama入門：インストールから日本語チャットまで10分で始めるローカルAI

2026年5月1日

毎日OllamaでローカルLLM、いわゆる自分のPC上で動くAIチャットを使っています。GPU2枚挿し環境で、チャット、文章校正、コード補助、画像の説明まで、クラウドに一切送らずに完結しています。本記事では、Ollamaのインストールから実用的に使えるようになるまでの手順を、実測データ付きでまとめました。予算別ガイドの記事で「ローカルAIを動かすのに何が必要か」を解説しましたが、今回はその先——実際に手を動かしてOllamaをセットアップする手順です。結論としては、Ollamaのセットアップは数ステップで完了します。10分もあれば日本語でチャットできる状態になります。

Ollamaとは

ローカルLLMを動かすための、現時点で最も簡単なツールです。

Windows / Mac / Linux対応: どのOSでも同じように使える
コマンド1つでモデルDL→実行: ターミナルに1行打つだけでAIチャットが始まる
無料・オープンソース: 利用料は一切かからない
OpenAI互換API付き: ChatGPT用に作られたアプリやツールがそのまま動く
モデルの管理が簡単: ダウンロード、削除、一覧表示がコマンド1つ

技術的な仕組みとしては、Ollamaがバックグラウンドでサーバーを起動し、localhost:11434でAPIを公開します。ターミナルからのチャットはもちろん、ブラウザUIやプログラミングからの呼び出しにも対応しています。

インストール手順（OS別）

Windows

ollama.com にアクセス
「Download for Windows」をクリック
ダウンロードされたインストーラー（OllamaSetup.exe）を実行
画面の指示に従ってインストール（特別な設定は不要）
インストール完了後、PowerShellまたはコマンドプロンプトを開く

ollama --version

バージョンが表示されればインストール成功です。

Mac

Homebrewがある場合:

brew install ollama

インストーラーを使う場合:

ollama.com にアクセス
「Download for macOS」をクリック
ダウンロードされたアプリを「アプリケーション」フォルダにドラッグ
Ollama.appを起動（メニューバーにアイコンが表示される）

ターミナルを開いて ollama --version で確認します。

Linux

ターミナルで1行実行するだけです。

curl -fsSL https://ollama.com/install.sh | sh

NVIDIA GPUを使う場合、CUDAドライバーが事前に必要です。nvidia-smi コマンドが動く状態であれば問題ありません。

# GPU認識の確認
nvidia-smi

GPUの名前とドライバーバージョンが表示されればOKです。

注意: インストールコマンドやUIは今後変わる可能性があります。うまくいかない場合はollama.comの最新の手順を確認してください。

最初のモデルを動かす

インストールが終わったら、ターミナルで以下を実行します。

ollama run qwen3:8b

これだけです。初回はモデルのダウンロードが走ります。

ダウンロード:

モデルサイズ: 約5.2GB
回線速度次第で1〜5分程度
ダウンロードは初回のみ。2回目以降は即座に起動

起動:

コールドスタート（モデルをVRAMに読み込む時間）: RTX 3090で約2.1秒（実測）
読み込みが終わると >>> プロンプトが表示され、すぐにチャット開始

試しに日本語で話しかけてみます。

>>> こんにちは。自己紹介してください。

日本語で応答が返ってくれば成功です。チャットを終了するには /bye と入力するか、Ctrl+D を押します。

実体験: 私の環境（RTX 3090）では、qwen3:8bの起動から最初の応答まで約3秒でした。文字がストリーミングで流れてくるので、体感はもっと速く感じます。回線の速い環境なら、コマンドを打ってから3分で「ローカルAIと日本語で会話している」状態になります。

モデル	DLサイズ	VRAM使用量	生成速度 (tok/s)	日本語品質	おすすめ用途
★ qwen3:8b	5.2GB	10.3GB	126.4	○ そこそこ	日常会話、簡単な質問
★ qwen3.5:9b	6.6GB	9.8GB	98.0	○ 良い	文章校正、コード補助
★ gemma4 (8B)	9.6GB	11.2GB	133.0	○ 良い	高速応答が欲しい時
★ qwen3.5:27b	17.4GB	18.2GB*	25.5	◎ かなり良い	本格的な質問応答、要約

tok/s	体感
15以下	遅い。待つ感じ
20	ちょっと待つけど読める
30	快適
40以上	すぐ返ってくる

基本コマンド一覧

Ollamaの操作はすべてターミナルから行います。覚えるコマンドは6つだけです。

コマンド	機能	使用例
`ollama run <model>`	チャット開始（未DLなら自動DL）	`ollama run qwen3:8b`
`ollama pull <model>`	モデルのダウンロードのみ	`ollama pull gemma4`
`ollama list`	ダウンロード済みモデルの一覧	`ollama list`
`ollama ps`	現在実行中のモデルを確認	`ollama ps`
`ollama rm <model>`	モデルを削除（ストレージ解放）	`ollama rm qwen3:8b`
`ollama show <model>`	モデルの詳細情報を表示	`ollama show qwen3:8b`

よく使うパターン

モデルを試す:

ollama run qwen3:8b

使わないモデルを消してストレージを空ける:

ollama list          # 一覧を確認
ollama rm gemma4  # 不要なモデルを削除

今何が動いているか確認:

ollama ps

VRAMの使用状況も表示されるので、「あれ、VRAMが足りない」というときの原因調査に便利です。

ChatGPTっぽいUIで使う（Open WebUI）

ターミナルでのチャットは動作確認には便利ですが、日常的に使うならブラウザUIがあったほうが快適です。Open WebUIを使えば、ChatGPTのような見た目でOllamaのモデルとチャットできます。

セットアップ（Docker 1コマンド）

Dockerがインストール済みであれば、以下を実行するだけです。

docker run -d -p 3000:8080 --gpus all \
  -v ollama:/root/.ollama \
  -v open-webui:/app/backend/data \
  --name open-webui \
  ghcr.io/open-webui/open-webui:ollama

起動後、ブラウザで http://localhost:3000 にアクセスすれば、チャット画面が表示されます。初回アクセス時にアカウント作成を求められますが、これはローカルのアカウントです（外部に送信されません）。

Open WebUIの便利な点

複数モデルの切り替え: プルダウンでqwen3:8bからgemma4に切り替えられる
会話履歴の保存: 過去のチャットがすべて残る。検索も可能
ファイルアップロード: テキストファイルやPDFをドラッグ&ドロップで渡せる
LAN内の他のPCやスマホからアクセス可能: http://<サーバーのIPアドレス>:3000 で家庭内の全デバイスから使える

実体験: 私の環境では、妻がiPadのブラウザからOpen WebUIにアクセスして料理のレシピを聞いています。Ollamaのインストールもターミナル操作も不要で、ChatGPTと同じ感覚で使えるのが良いところです。サーバーのIPアドレスをブックマークしておくだけ。

注意: Dockerを使わずにOllamaを既にインストール済みの場合は、別の起動コマンドになります。Open WebUIの公式リポジトリで最新のインストール方法を確認してください。

GPU別の選び方ガイド

Ollamaを快適に使うために必要なGPUは、動かしたいモデルのサイズで決まります。

GPU (VRAM)	動かせるモデル	生成速度の体感	中古価格帯（2026年4月時点）
GTX 1660 (6GB)	4Bモデルのみ	遅い（15 tok/s以下）	中古 1〜2万円
★ RTX 3060 12GB	8B〜12B	実用的（60 tok/s）	中古 2〜3.5万円
RTX 4060 Ti 16GB	14Bまで	快適（23〜42 tok/s）	中古 4.5〜6万円
★ RTX 3090 24GB	27B〜32B	本格的（25.5 tok/s〜）	中古 13〜20万円
Mac M4 Pro 24GB	14B〜27B	快適（20〜40 tok/s）	Mac本体の価格

★ = 筆者実測値（RTX 3090 / RTX 3060、2026年4月）。推定値の計算方法はGPU全機種スペック一覧を参照。

この表の見方

VRAMの量が「どのサイズのモデルを動かせるか」を決め、モデルのサイズが「AIの賢さ」を決めます。つまりVRAMの量 ≒ AIの賢さの上限です。

「まず試してみたい」: RTX 3060 12GB（中古2〜3万円）で8Bモデル。日常的な質問には十分
「仕事でも使いたい」: RTX 4060 Ti 16GB（中古5万円前後）で14Bモデル。文章校正やコード補助が実用レベル
「本格的に活用したい」: RTX 3090 24GB（中古13万円〜）で27B〜32Bモデル。クラウドAIに近い品質

GPUの詳しい比較は「中古GPUでローカルAIを始める」の記事を参照してください。

よくある問題と対処

Ollamaは安定したソフトウェアですが、最初のセットアップで引っかかりやすいポイントがいくつかあります。

問題	原因	対処
“out of memory" エラー	VRAMが足りない	より小さいモデルに変更する。8Bで出るなら4Bを試す
応答が異常に遅い	GPUが認識されずCPUで動いている	`nvidia-smi` でGPUが見えるか確認。見えなければドライバー再インストール
日本語が不自然	モデルの日本語能力の限界	qwen3系かgemma4系に切り替える。llama系は日本語が弱い
コールドスタートが長い（10秒以上）	モデルをVRAMに読み込み中	正常な動作。2回目以降は速い（モデルがメモリに残る）
`ollama run` で接続エラー	Ollamaサーバーが起動していない	`ollama serve` で手動起動。Linuxなら `systemctl start ollama`
モデルのダウンロードが途中で止まる	ネットワークの問題	同じコマンドを再実行すれば途中から再開される

GPUが認識されているか確認する方法

# NVIDIA GPUの場合
nvidia-smi

出力に自分のGPUの名前（例: “NVIDIA GeForce RTX 3090″）が表示されていればOKです。表示されない場合は、NVIDIAドライバーのインストールが必要です。

# Ollamaが使っているGPUを確認
ollama ps

ollama ps の出力に GPU の列があり、使用量が0%でなければ、GPUで推論が走っています。

並列利用のすすめ

Ollamaは複数のリクエストを同時に処理できます。つまり、1台のPCで家族や同僚が同時にAIを使えます。

実測データ

私の環境（RTX 3090）で並列アクセスの性能を計測しました。

qwen3:8b（8Bモデル）:

1人で使用: 126.4 tok/s
128人同時アクセス: 125.6 tok/s（速度低下わずか0.6%）

qwen3.5:27b（27Bモデル）:

1人で使用: 25.5 tok/s
8人同時アクセス: 25.8 tok/s（速度低下ほぼなし）

8Bモデルであれば、128人が同時にアクセスしてもほとんど速度が落ちません。家庭内で家族3〜4人が同時に使う程度なら、性能面の心配はまったく不要です。

共有の方法

Open WebUIを使えば、家庭内の共有は簡単です。

Open WebUIを起動したPCのIPアドレスを確認（例: 192.168.1.100）
他のPC・スマホ・タブレットのブラウザで http://192.168.1.100:3000 にアクセス
各自のアカウントを作成してログイン

アカウントごとに会話履歴が分かれるので、プライバシーも保たれます。

まとめ

Ollamaのセットアップは、ここまで書いてきた通り10分で終わります。

インストール: OS別に1コマンドまたはインストーラー実行
最初のチャット: ollama run qwen3:8b で日本語チャットが始まる
ブラウザUI: Open WebUIを入れればChatGPTのような使い心地
家族と共有: LAN内の全デバイスからアクセス可能

最初のハードルはGPU選びですが、RTX 3060 12GBの中古（2〜3万円）があれば8Bモデルで十分実用的です。すでにGPUを持っているなら、今すぐ ollama run qwen3:8b を試してみてください。

記事で紹介したGPU

【中古】ELSA GeForce RTX 3060 S.A.C／L GD3060-12GEBSH4 12GB

created by Rinker

ELSA

MSI GeForce RTX 5060 Ti 16G VENTUS 2X OC PLUS グラフィックボード

created by Rinker

MSI

一度ローカルAIの便利さを体験すると、「これ、外部に送らなくていいんだ」という安心感と、「月額料金がかからない」という気楽さで、手放せなくなります。私がそうでした。

関連記事
・「自宅でAIチャットボットを動かしたい：予算別にできることガイド」— ローカルAIに何が必要か、予算帯ごとに解説
・「中古GPUでローカルAIを始める：RTX 30/40世代のコスパを検証する」— GPU選びの詳細比較

この記事の価格・ベンチマーク情報は2026年4月時点のものです。Ollamaのコマンド体系やモデルのラインナップは更新される可能性があります。最新情報はollama.comを確認してください。

PC,ローカルAI

GPU 2枚挿しでローカルAIを使い倒す：RTX 3090+RTX 3060の同時運用ガイド

【2026年版】ローカルAI・VR・画像生成向けGPU全機種スペック一覧