T2M-Benchmark · Text-to-3D Model Evaluation

動機

2026 年的 Text-to-3D 領域有 Hunyuan3D-2、Trellis、InstantMesh、TripoSR、Shap-E 等多個開源模型，但缺乏一個輕量、可重現、無需 ground truth 的橫向比較。本專案提供：

7 個本地可跑的開源模型：Hunyuan3D-2、Trellis、InstantMesh、TripoSR、SF3D、Shap-E、OpenLRM
11 組 prompt（10 組均衡核心 + 1 組驗證），涵蓋簡單物件 / 組合物件 / 角色 / 場景 / 細節 / 抽象六大類別
5 個自動指標（CLIP / Aesthetic / Mesh Quality / VLM 6 軸）+ pairwise Elo 頭對頭排名
統一的 generate → render → metrics → report pipeline，每階段可獨立快取與重跑

CLIP Score

OpenCLIP ViT-L/14（openai 權重）對 8 視角圖與 prompt 文字的餘弦相似度平均。

0.0 – 1.0（實測 0.14 – 0.27）

Aesthetic Score

LAION improved-aesthetic-predictor，MLP 接在 CLIP image feature 上，8 視角圖平均。

1.0 – 10.0

Mesh Quality

watertight、manifold（winding consistency）、相鄰面 normal 餘弦相似度、頂點/面數，使用 trimesh。

多維度 sub-metrics

VLM Score

Claude Code headless 對 8 視角 collage 打 6 軸分數（text_alignment / geometry / texture / multi-view consistency / aesthetic / overall）。

0 – 10（每軸）

Pairwise Elo

GPTEval3D 風格頭對頭：每對 (A, B) 由 Claude judge 選優，A/B 隨機對調緩解 position bias。K=32、起始 1500、150 場/pass。

Elo 分數

→ 完整方法論（計算流程、權重來源、judge prompt 全文）： docs/metrics.md

為什麼是這幾個模型？

選型遵循三個原則：完全開源（repo + 權重可下載）、單卡可推論（≤24 GB VRAM）、涵蓋 T2M 三大主流架構路線，以利公平比較與本地重現。

1. 三大架構路線各自代表

路線	代表模型	為什麼選它
原生 text→3D（latent diffusion）	Shap-E、Trellis	Shap-E 是 OpenAI 早期 baseline；Trellis 是 Microsoft 2024 SLAT 表示法，目前開源 text→3D 品質 SOTA
single-image 重建	TripoSR、OpenLRM、SF3D	Stability AI 與 zxhezexin 的 LRM 變體，速度極快、品質有差；SF3D 為 TripoSR 後繼，加上 UV 展開與 PBR 材質
multi-view + LRM	InstantMesh、Hunyuan3D-2	InstantMesh = Zero123++ + FlexiCubes（騰訊 ARC）；Hunyuan3D-2 = 騰訊 DiT-based flow matching，目前開源 image→3D SOTA

2. 為什麼不選某些模型

DreamFusion / Magic3D：NeRF-based、單樣本 30+ 分鐘，跑 60 cells 不現實。
GET3D / EG3D：訓練於單一 class（汽車/椅子），不適合 open-vocabulary prompt。
Wonder3D / SyncDreamer：已被 InstantMesh / Hunyuan3D-2 超越。
Meshy / Tripo3D / Rodin：商用 API、無權重、結果不可重現。
MVDream / ImageDream：只輸出 multi-view 圖、需另接 reconstruction，等同 InstantMesh pipeline 子集。

3. 共用前置：SDXL-Turbo

5 個 image-conditioned 模型（Hunyuan3D-2、InstantMesh、TripoSR、SF3D、OpenLRM）共用 stabilityai/sdxl-turbo 作為 text→image 前置（512×512、4 steps、固定 seed=42），確保條件圖一致、不會因 T2I 階段差異干擾 3D 階段比較。

一句話總結：不是挑「最強的幾個」，是挑「能讓三大路線都有代表 + 都能在你的單卡上重現」的模型。完整 spec（論文、HF 權重、推論參數、VRAM、授權）詳見 docs/models.md。SF3D 為最新加入、尚未納入結果頁排名。

為什麼是這些 Prompt？

核心 10 組 prompt 不是隨意挑的，而是按「能力光譜（capability spectrum）覆蓋」設計，讓 benchmark 能同時測出每個模型在不同維度的強弱，而非只在單一面向打分（p11 為後加的新模型驗證 prompt）。

1. 6 個類別 × 不同難度梯度

類別	數量	測什麼能力	為何選這個
simple	2	基礎幾何 + 單一材質	地板分數 — 連馬克杯都做不出來就別談其他
compound	2	多 part 組合 + 結構正確性	測 part-level 合成（坐墊+把手+鈴鐺、箱身+鉸鏈+寶石）
character	2	有機體比例 + 服裝/配件	T2M 公認痛點 — corgi 頭身比、騎士甲冑層次
scene	2	多物件空間關係	測模型是輸出單物件還是能組場景（多數 T2M 會炸開）
detail	1	高頻細節（齒輪雕花）	拉開 mesh 解析度差距
abstract	1	非物理語意（“flowing time”）	測語意理解 vs. 只會做具象物件

2. 為什麼是這個數量、不是 5 或 50

太少（<5）：單一 prompt 偏差會主導 ranking，不夠穩健。
太多（>20）：模型數 × N prompts × 8 視角 render + CLIP/Aesthetic/VLM 評分的算力會爆 — 目前這組 prompt 在單張 4090/5090 跑完所有模型大約是「過夜可完成」的甜蜜點。
10 上下是 evaluation paper 常用基準：DreamFusion、Magic3D、GET3D 都落在 5–20 之間。

3. Prompt 措辭的隱形約束

都用 A + noun + 修飾語 的簡單英文句構 — 因為 Shap-E / TripoSR 的 text encoder 對複雜句構不擅長，避免「測 prompt 解析能力」蓋過「測 3D 生成能力」。
每個 prompt 都明確指定材質 / 顏色 / 風格（red ceramic、leather saddle、silver plate、smooth marble）— 這樣 CLIP score 與 VLM 評分才能比對「prompt 一致性」。
避免版權人物（無 Pikachu、無 Iron Man）。

一句話總結：用最少 prompt 數量、最廣能力覆蓋、最公平句構，讓所有模型在同一張光譜上被比較，而不是在某個模型的舒適區或弱項上取巧。

Prompt（11 組）

核心 10 組均衡分佈：2 簡單物件 + 2 組合物件 + 2 角色 + 2 場景 + 1 細節 + 1 抽象；另含 p11（character，太空主題）作為新模型驗證 prompt

ID	類別	描述
p01	simple	A red ceramic coffee mug on a white background
p02	simple	A wooden rocking chair
p03	compound	A vintage bicycle with a leather saddle and metal bell
p04	compound	A fantasy treasure chest with golden hinges and emerald gems
p05	character	A cartoon corgi wearing a blue astronaut helmet
p06	character	A medieval knight in silver plate armor holding a longsword
p07	scene	A small Japanese garden with a stone lantern and koi pond
p08	scene	A cyberpunk street food cart at night with neon signs
p09	detail	An ornate Victorian pocket watch with intricate gear engravings
p10	abstract	An abstract sculpture representing ‘flowing time’, smooth marble
p11	character	An astronaut in a white spacesuit holding a flag

Status

評估完成。6 個本地模型 × 10 prompts × 6 軸 VLM + 150 場 pairwise Elo 已產出。

→ 查看完整結果（Elo 排名、頭對頭矩陣、每 prompt 結果、可旋轉 3D 模型）