スマホで撮った写真から3Dモデルを作れるのか〜フォトグラメトリの始め方を調べてみた

2026年6月12日

スマホで撮った写真だけで3Dモデルが作れる——そんな話が気になって、フォトグラメトリについて一通り調べてみました。ふだんはVR・3Dプリント・AIまわりの記事を書いていて、自宅のUbuntu PC(RTX 3090 + RTX 3060のGPU2枚挿し)でAI推論を日常的に回している環境です。

公式チュートリアルやユーザーの作例を見ていくと、Pixel 8のようなLiDAR非搭載のスマホでも、40枚ほど撮影してLuma AIに放り込めば、数分でテクスチャ付きの3Dモデルが生成されるとのこと。正直、「え、それだけで?」という感想です。

さらに、iPhone 12 Pro MaxのLiDARセンサーを使ってPolycamでスキャンすると形状の精度が一段上がり、暗めの室内でもメッシュが崩れにくいという報告が多く見られます。LiDARの有無でそこまで差が出るのか、というのも気になるポイントでした。

調べた範囲での結論としては、LiDARなしスマホでも明るい場所で30枚以上撮れば実用レベルとされています。本記事では、スマホだけで3Dモデルを作る方法を、技術の整理・アプリ比較・撮影のコツ・PC処理との組み合わせまで一通りまとめます。3Dプリントの素材にしたい人、VR空間に実物を持ち込みたい人、どちらにも使える内容です。

フォトグラメトリとは

フォトグラメトリは、複数枚の写真から3Dモデルを再構成する技術です。被写体をいろいろな角度から撮影して、ソフトウェアが各写真の特徴点を照合し、立体的な形状とテクスチャを復元します。

もともとは測量や文化財のデジタル保存に使われていた技術で、専用カメラと高性能PCが必須でした。2026年現在は、AIによる特徴点マッチングと深度推定の精度が大幅に向上したことで、状況が一変しています。

従来のフォトグラメトリ:

  • 一眼レフで200〜500枚撮影
  • COLMAP等の専用ソフトで処理
  • RTX 3090クラスのGPUで数時間〜半日

2026年のフォトグラメトリ:

  • スマホで20〜50枚撮影
  • アプリが自動処理(クラウドまたはデバイス上)
  • 3〜10分で3Dモデル完成

この劇的な変化の背景にあるのは、AIによる「少ない写真からの補完」技術です。従来は死角部分が穴になっていましたが、現在のアルゴリズムは欠損部分を推測して埋めてくれます。完璧ではありませんが、実用レベルには達しています。

SfM(Structure from Motion)の仕組み:フォトグラメトリの数学的原理

「スマホで写真を撮るだけで3Dモデルができる」と聞くと魔法のようですが、裏側では厳密な数学が動いています。ここではフォトグラメトリの核心であるSfM(Structure from Motion)の原理を、数式も交えつつ噛み砕いて説明します。

ステップ1:特徴点の検出

まず、各写真から「目印になる点(特徴点)」を見つけます。角、エッジ、テクスチャのコントラストが強い部分です。1枚の写真から数千〜数万個の特徴点が検出されます。

このアルゴリズムは年々進化しています。

アルゴリズム 登場年 方式 特徴 弱点
SIFT 2004年 手設計フィルタ 回転・スケール不変。長年の業界標準 速度が遅い。暗所に弱い
ORB 2011年 手設計(高速版) SIFTの10倍以上高速。特許フリー 精度がSIFTより劣る
SuperPoint 2018年 CNN(深層学習) 学習ベースで暗所やテクスチャの少ない場面に強い GPU推奨。モデルサイズが大きい
LightGlue 2023年 Transformer SuperPointとセットで使用。マッチング精度が大幅向上 計算コストがやや高い

2004年のSIFTから2023年のLightGlueまで、約20年かけて「手設計のフィルタ → 深層学習 → Transformer」と進化してきました。最新のSuperPoint + LightGlueの組み合わせは、暗所やテクスチャの乏しい壁面でも安定して特徴点をマッチングできます。スマホアプリが少ない枚数でもそこそこの3Dモデルを作れるのは、このマッチング精度の向上のおかげです。

ステップ2:エピポーラ幾何でカメラ位置を推定する

2枚の写真で同じ特徴点が見つかったとき、「2台のカメラがどこに置かれていたか」を逆算する必要があります。ここで使われるのがエピポーラ幾何(Epipolar Geometry)です。

数式で表すと、2つのカメラ間の幾何学的関係は基本行列 E で記述されます。

x'ᵀ · E · x = 0

ここで x と x’ は、同じ3D点が2枚の写真上に映った2D座標です。

イメージ: ある物体の同じ角が、写真Aでは左上に、写真Bでは右上に映っている。この「ズレ方」のパターンから、2台のカメラの位置関係(距離と角度)を逆算できる、という仕組みです。人間が両目で物を見て奥行きを感じるのと同じ原理で、「視差(パララックス)」から距離を計算しています。

この計算を全ての写真ペアに対して行い、カメラ位置を段階的に追加していくのがSfMの「インクリメンタル復元」です。最初の2枚から始めて、3枚目、4枚目……と少しずつ3D点群を広げていきます。

ステップ3:バンドル調整で誤差を最小化する

SfMで得られたカメラ位置と3D点群には誤差が蓄積します。これを一括で補正するのがバンドル調整(Bundle Adjustment)です。すべてのカメラ位置と3D点の座標を同時に微調整して、「3D点を各カメラに投影したときの誤差」を最小にします。

min Σ ‖xᵢⱼ − π(Cⱼ, Xᵢ)‖²
言い換えると: 「推定した3D点をカメラの位置から写真に投影してみたら、実際の写真上の位置とどれくらいズレるか」を全部足し合わせて、そのズレが最小になるようにカメラ位置と3D点の座標を微調整する。これがバンドル調整です。COLMAPやMeshroomが「処理中」と表示して時間がかかっている場面の大部分は、この最適化計算をやっています。

撮影枚数と精度の関係

撮影枚数を増やせば精度が上がりますが、処理時間も急激に増えます。枚数 N に対して、SfMの特徴点マッチングは O(N²) の計算量になるためです。30枚なら 30×30 = 900通り、100枚なら 100×100 = 10,000通りの画像ペアを比較する必要があります。

精度と処理時間の関係の目安をまとめました(フィギュア1体のスキャンを想定、Meshroom + RTX 3090クラスのGPUで処理した場合のユーザー報告をもとにしています)。

撮影枚数 カバー角度 SfM処理時間 メッシュ精度 穴の有無
10枚 約180度 約1分 低い(形が歪む) 大きな穴あり
20枚 約300度 約3分 中程度 小さな穴あり
30〜40枚 360度 約8〜15分 実用的 ほぼなし
60枚 360度(高密度) 約25分 高い なし
100枚 360度(超高密度) 約60分 非常に高い なし

撮影枚数とSfM処理時間の目安(Meshroom + RTX 3090クラス)

10枚
1 分
20枚
3 分
30〜40枚(推奨)
12 分
60枚
25 分
100枚
60 分
要点: 30〜40枚がコスパの最適ポイントです。20枚以下では穴が開きやすく、60枚以上では処理時間が急増する割に精度の向上幅が小さくなります。「360度を均等にカバーする30〜40枚」が、ほとんどの用途で最も効率的とされています。

3Dスキャン技術を整理する:4つの手法

スマホで3Dモデルを作る技術は、フォトグラメトリだけではありません。2026年現在、主に4つの手法が使われています。それぞれ得意分野が異なるので、まず全体像を把握しておきます。

項目 フォトグラメトリ 3D Gaussian Splatting (3DGS) NeRF LiDARスキャン
入力 写真(20〜50枚) 写真 or 動画 写真(50〜200枚) LiDARセンサーのデータ
処理の仕組み 特徴点マッチング+メッシュ生成 3Dガウス分布で空間を表現 ニューラルネットワークで光線を学習 赤外線レーザーで距離を計測
テクスチャ品質 ★★★★☆ 写真そのものなので綺麗 ★★★★★ フォトリアルな表現 ★★★★★ 高品質だがノイズあり ★★☆☆☆ テクスチャは別途必要
形状精度 ★★★☆☆ エッジが甘くなりやすい ★★★☆☆ メッシュ変換で劣化 ★★★☆☆ メッシュ変換で劣化 ★★★★★ 距離データなので正確
処理速度 数分〜数十分 数分〜30分 数時間 リアルタイム〜数分
必要機材 スマホだけでOK スマホ or PC(GPU推奨) PC(GPU必須) LiDAR搭載スマホ or 専用機
3Dプリント適性 ★★★★☆ メッシュ直接出力 ★★☆☆☆ メッシュ変換が必要 ★★☆☆☆ メッシュ変換が必要 ★★★★★ そのまま使える
普及時期 2010年代〜 2024年〜急速に普及 2022年〜 2020年〜(iPhone 12 Pro以降)

フォトグラメトリは、最も歴史があり、スマホ単体で完結できる手軽さが強みです。テクスチャが写真ベースなので色の再現性が高く、3Dプリント用のメッシュも直接出力できます。

3D Gaussian Splatting(3DGS)は2023年にSIGGRAPHで発表され、2024年から急速に広まった新しい手法です。従来のメッシュ(三角形の集合体)ではなく、3Dのガウス分布(ぼやけた点の集まり)で空間を表現します。動画を入力にできるので撮影が楽で、リアルタイムレンダリングにも向いています。ただし、3Dプリントに使うにはメッシュへの変換が必要で、その過程で品質が落ちます。

NeRF(Neural Radiance Fields)は高品質ですが、処理にGPUと時間が必要です。RTX 3090でも1シーンの学習に数時間かかることがあるとされています。研究向けの色合いが強く、スマホでの手軽な利用にはあまり向いていません。

LiDARスキャンは、iPhone 12 Pro以降に搭載されたLiDARセンサーを使う方法です。赤外線レーザーで距離を直接測るため、形状の精度が高く、暗い場所でも動作します。テクスチャはカメラ画像から貼り付ける形になるので、フォトグラメトリと組み合わせるのが理想的です。

スマホアプリ比較:5つの選択肢

実際にスマホで3Dスキャンをやるとき、どのアプリを使うかが重要です。2026年4月時点で主要な5アプリの情報を整理しました。

アプリ 価格 対応OS LiDAR活用 3DGS対応 エクスポート形式 処理方式
Luma AI 無料 iOS / Android glTF, USDZ, PLY, OBJ クラウド
Polycam 無料〜月額約$18〜 iOS / Android OBJ, STL, glTF, USDZ, FBX, PLY クラウド+LiDARはローカル
Apple Object Capture 無料 iOS only (Mac連携) USDZ, OBJ ローカル(Mac)
Kiri Engine 無料〜月額$17.99〜 iOS / Android OBJ, STL, glTF, FBX, PLY クラウド
RealityScan 無料 iOS / Android OBJ, GLB クラウド(Sketchfab連携)

スマホ3Dスキャンアプリ:機能・コスト比較

アプリ月額費用対応OSLiDAR3DGS3Dプリント出力処理方式
Luma AI無料iOS/Android×△(有料)クラウド
Polycam ★無料〜約$18iOS/Android◎(STL対応)クラウド+ローカル
Apple Object Capture無料iOS+Mac×○(OBJ)ローカル
Kiri Engine無料〜$17.99iOS/Android○(STL対応)クラウド
RealityScan無料iOS/Android××△(OBJ)クラウド

2026年4月時点の情報。価格は変動する可能性があります

各アプリの特徴

Luma AIは、3DGSに対応しているのが最大の特徴です。スマホで動画を撮るだけで、フォトリアルな3Dシーンが生成されます。「とりあえず試してみたい」なら、これが一番手軽です。ただしLiDARには非対応で、エクスポートの細かい設定は有料プランが必要です。

Polycamは、LiDARモードとフォトグラメトリモードを切り替えられるので、1つのアプリで両方試せます。エクスポート形式が豊富で、STL出力ができるので3Dプリントとの相性が良いと評価されています。無料版はエクスポートがglTF形式のみに制限されるため、STLなど他形式の出力には有料プランが必要です。

Apple Object Captureは、iPhoneで撮影してMacで処理するワークフローです。Apple純正なのでUSDZとの親和性が高く、ARKit連携が楽。ただしMacが必要なのと、Android非対応が弱点です。

Kiri Engineは、クラウド処理でフォトグラメトリと3DGSの両方に対応しています。処理精度のオプションが選べるので、用途に合わせて品質と処理時間を調整できます。

RealityScanはEpic Games(Unreal Engine)の開発元が提供しているアプリです。Sketchfabとの連携が強く、スキャンした3DモデルをそのままWeb公開できます。ゲーム開発者がアセットを作る用途に向いています。

LiDARあり vs なし:何が変わるか

LiDAR搭載のiPhone 12 Pro Maxと、LiDAR非搭載のPixel 8を例に、何が変わるのかを公開されているスペックとユーザーの作例レビューをもとに整理しました。

端末スペック比較

項目 iPhone 12 Pro Max Pixel 8
LiDARセンサー あり(dToF方式) なし
メインカメラ 12MP / f1.6 50MP / f1.68
超広角 12MP / f2.4 12MP / f2.2
LiDAR有効距離 約5m
深度推定 LiDAR+カメラの融合 AIによるソフトウェア推定

条件別の品質比較

各種レビューや作例報告から見えてくる、撮影条件ごとの傾向をまとめると以下のようになります。

撮影条件 iPhone 12 Pro Max (LiDAR) Pixel 8 (LiDARなし) 差が出るポイント
屋内・明るい ★★★★★ ★★★★☆ LiDARなしでも十分。差は小さい
屋内・暗い ★★★★☆ ★★☆☆☆ LiDARの独壇場。暗所で圧倒的な差
屋外・晴天 ★★★★☆ ★★★★☆ 光量が十分なら差は小さい
小物(10cm以下) ★★★★★ ★★★☆☆ 近距離の深度が正確。エッジがシャープ
部屋全体 ★★★★☆ ★★☆☆☆ LiDARが距離を正確に測れるので壁・床の歪みが少ない

結論として、明るい場所で中〜大サイズの被写体ならLiDARなしでも実用レベルと言えそうです。 暗い場所、小物のスキャン、部屋全体のスキャンではLiDARの有無で品質差が顕著に出る、というのが各種レビューに共通する評価です。

Pixel 8のメインカメラは50MPと高解像度なので、テクスチャの色再現はむしろiPhoneより良い場面もあるようです。形状精度ではLiDARに負けますが、テクスチャの綺麗さではLiDARなしでも勝負できそうです。

ポイント: 「LiDARがないから3Dスキャンは無理」ではありません。LiDARなしスマホでも、明るい場所+十分な枚数(30枚以上)で撮れば、ホビー用途には十分使える3Dモデルが作れるとされています。

手軽さ vs 品質:散布図で見る各手法の立ち位置

各手法を「手軽さ」と「3Dモデル品質」の2軸で整理しました。

散布図データ

  • X軸: 手軽さスコア(10点満点。高いほど簡単に使える)
  • Y軸: 3Dモデル品質スコア(10点満点。高いほど精度・テクスチャが良い)
手法 手軽さ (X) 品質 (Y) 備考
スマホ (LiDARなし) + Luma AI 9 5 最も手軽。動画を撮るだけ。品質は割り切り
スマホ (LiDAR) + Polycam 8 7 LiDARの恩恵で品質UP。バランスが良い
スマホ (LiDAR) + Apple Object Capture 7 7 Mac連携が必要な分、手軽さがやや下がる
PC + COLMAP + 3DGS 3 9 環境構築が大変だが品質は高い
PC + Meshroom (フォトグラメトリ) 4 8 オープンソース。GPU必要
専用3Dスキャナー 2 10 最高品質だが機材が10万円〜
COMPARISON
3Dスキャン手法:品質 vs 手軽さ
← 品質(高い)
手軽さ(高い)→
専用3Dスキャナー
品質10 / 手軽さ2
PC+COLMAP+3DGS
品質9 / 手軽さ3
PC+Meshroom
品質8 / 手軽さ4
LiDAR+Polycam
品質7 / 手軽さ6
LiDAR+Apple OC
品質7 / 手軽さ6
スマホ+Luma AI
品質5 / 手軽さ9

散布図の読み方

  • 右上に位置するほど、「手軽で高品質」という理想的な選択肢です。現時点では右上の領域は空白で、どの手法も手軽さと品質のトレードオフがあります
  • 右下(手軽さ高・品質低)のLuma AIは、「まず試してみたい」人向け。品質5でも、VR空間での背景やWeb共有には十分です
  • 左上(手軽さ低・品質高)のPC+COLMAP+3DGSや専用スキャナーは、品質重視の本格派向け。環境構築や機材投資が必要ですが、3Dプリントで精密なパーツを作りたい場合はここを目指します
  • 中央のLiDAR+Polycamは、スマホ完結で品質もそこそこという「一番バランスが良いゾーン」です。iPhone Pro系を持っているなら、まずここから始めるのが良さそうです

撮影のコツ:成功率を上げる7つのポイント

フォトグラメトリの品質は、撮影の時点でほぼ決まると言われています。ソフトウェアの性能以前に、入力データ(写真)の品質が重要です。公式チュートリアルやユーザーの知見で共通して挙げられているポイントを整理します。

1. 被写体の周囲をぐるりと30〜50枚撮る

被写体を中心に、約20度間隔でぐるりと1周します。18枚で1周。さらに上から15〜20枚、斜め下から10枚程度加えて、合計30〜50枚が目安です。枚数が少ないと穴が開き、多すぎると処理時間が増えるので、このあたりがバランスポイントです。

2. 明るい場所で撮影する

自然光がベスト。室内なら窓際、屋外なら曇りの日が理想的です。直射日光は影が強くなり、影の部分でテクスチャが暗くなります。蛍光灯のみの室内でもLiDARありなら問題ないとされていますが、LiDARなしの場合は追加の照明を用意すると精度が上がります。

3. 背景にテクスチャがあると精度UP

真っ白なテーブルの上に被写体を置くと、ソフトウェアが背景の特徴点を見つけられず、位置合わせに失敗することがあります。新聞紙を敷く、木目のテーブルを使うなど、背景に模様があると安定します。

4. 被写体は動かさない

撮影中に被写体が動くと、当然ですが3Dモデルが破綻します。人物のスキャンは現状かなり難しく、静物が前提です。風で揺れる布や植物も苦手です。

5. 反射・透明素材はNG

ガラス、鏡、金属の光沢面はフォトグラメトリの天敵です。光の反射がカメラ位置によって変わるため、特徴点のマッチングが失敗します。つや消しスプレー(マットスプレー)を吹ける場合は、それだけで劇的に改善するとされています。

6. ピンボケ・手ブレを避ける

1枚でもピンボケの写真が混ざると、その部分の精度が落ちます。スマホを両手で持ち、シャッターを切ってから0.5秒ほど静止するのがコツとして挙げられています。三脚+リモートシャッターがあれば理想的です。

7. オーバーラップを意識する

隣り合う写真の60〜80%が重なるように撮影します。重なりが少ないと、ソフトウェアが「この2枚はつながっている」と判断できなくなります。感覚としては、被写体を画面中央に捉えたまま、少しずつ横に動いて撮る、という流れになります。

3Dモデルの活用先

スキャンして作った3Dモデルは、そのままでは「眺めるだけ」です。代表的な活用先を4つ紹介します。

3Dプリント

最もわかりやすい活用先です。STLまたはOBJ形式でエクスポートして、スライサーソフト(Cura、PrusaSlicer等)に読み込み、3Dプリンターで出力します。フォトグラメトリで作ったモデルはメッシュが不均一なことが多いので、Meshmixerなどでリメッシュ(メッシュの整理)をしてから印刷するのが定番のようです。

VR空間への持ち込み

glTFまたはUSD形式でエクスポートして、Unityに取り込みます。VRChatのワールドに配置したり、自作のVRアプリで使ったりできます。実物をスキャンした3Dモデルは、手作りのモデルとは違う「生活感」があって、VR空間のリアリティが増すという声が多いです。

Web公開

Sketchfabにアップロードすれば、ブラウザ上で3Dモデルをぐるぐる回して見られます。Luma AIにはシェア機能があり、URLを共有するだけで3DGSのシーンを他の人に見てもらえます。ブログ記事に埋め込むことも可能です。

AR表示

iPhone(Quick Look)やAndroid(AR Core)で、現実の空間に3Dモデルを重ねて表示できます。USDZ形式でエクスポートすれば、iPhoneのSafariからそのままAR表示が可能。家具のサイズ感を確認したり、フィギュアを机の上に置いてみたりという使い方ができます。

PC処理(GPU活用)との比較

スマホだけで完結する手軽さは魅力ですが、品質を追求するならPCでの処理も選択肢に入ります。手元にRTX 3090があるので個人的にも気になるところで、公開されている情報をもとに比較します。

スマホ完結の場合

  • メリット: 撮影から3Dモデル完成まで5〜10分。アプリのインストールだけで始められる。PCの知識不要
  • デメリット: 解像度と精度に限界。エクスポート形式の自由度が低い(無料版の場合)。クラウド処理の場合、データがサーバーに送信される

PC処理の場合(RTX 3090クラスのGPU環境)

  • COLMAP → 3D Gaussian Splatting: 写真をCOLMAPで特徴点マッチング → 3DGSで学習。RTX 3090クラスで30分〜1時間程度とされています。品質は非常に高く、フォトリアルな3Dシーンが作れる。ただし環境構築(CUDA、Python、各種ライブラリ)が面倒
  • Meshroom(AliceVision): オープンソースのフォトグラメトリソフト。GUIがあるのでCOLMAPより取っつきやすい。RTX 3090クラスで50枚の処理に20〜40分が目安とされています。メッシュとテクスチャが直接出力されるので、3Dプリント向き

組み合わせ技:スマホ撮影 → PC仕上げ

品質重視のユーザーの作例でよく見かけるワークフローは以下の通りです。

  1. スマホ(Pixel 8 or iPhone 12 Pro Max等)で30〜50枚撮影。LiDARが使える場合はPolycamでLiDARデータも取得
  2. 写真をPCに転送。Google フォト経由、AirDrop、USBケーブル、何でもOK
  3. Meshroomで高精度フォトグラメトリ処理。RTX 3090クラスで20〜40分が目安
  4. 必要に応じてBlenderで修正。不要部分の削除、穴埋め、リメッシュ
  5. 用途に合わせてエクスポート。3Dプリント→STL、VR→glTF、Web→GLB

スマホアプリだけで完結する場合と比べて手間は増えますが、品質は1〜2段階上がるとされています。特に小物のスキャンでは、Meshroomの高精度モードで処理するとエッジの再現度が大きく変わるという作例報告が見られます。

ポイント: まずはスマホアプリだけで試してみて、品質に満足できなくなったらPC処理に移行する、という段階的なアプローチが定番のようです。最初からCOLMAPの環境構築に挑むと、3Dモデルを作る前に心が折れる、というのは経験者の間でよく言われる話です。

まとめ

2026年現在、スマホ1台あれば3Dモデルが作れる時代になっています。調べた内容を整理すると以下の通りです。

  • LiDARなしスマホ(Pixel 8等)でも、明るい場所+30枚以上の撮影で実用レベルの3Dモデルが作れるとされています。Luma AIなら動画を撮るだけで、数分で完成するという作例が多く見られます
  • LiDAR搭載スマホ(iPhone Pro系)なら、暗所や小物のスキャンも安定します。Polycamとの組み合わせが現時点で最もバランスが良い選択肢と評価されています
  • 本格的に品質を追求するなら、スマホ撮影+PC処理の組み合わせが有力です。RTX 3090クラスのGPUがあれば、COLMAPやMeshroomで一段上の精度が得られます

始め方はシンプルで、Luma AIかPolycamをインストールして、手近な小物を撮ってみる、という流れになります。「自分の持ち物がぐるぐる回せる3Dモデルになる」という体験談を読んでいると、手元のRTX 3090でのPC処理と組み合わせて、私も試してみたくなりました。

記事内で取り上げた機材

【中古】MSI GeForce RTX 3090 GAMING X TRIO 24GB

【中古】MSI GeForce RTX 3090 GAMING X TRIO 24GB

¥148,000 (2026/5/1時点)

【中古】ELSA GeForce RTX 3060 12GB

【中古】ELSA GeForce RTX 3060 12GB

¥29,800 (2026/5/1時点)