方法論 · Methodology
方法論
從 PubMed 到分級結論的 7 步驟科學透明流程。
1我們的承諾
完全透明 — 每個 tier 等級背後都有可驗證的計算邏輯,公式公開、權重公開、PMID 公開。
有限承諾 — 我們不宣稱「真理」,只報告「目前可驗證的最佳證據」。當新證據出現,等級會更新。
獨立性 — 沒有廠商贊助、沒有付費上架、沒有業配。
27 層證據引擎
每個 claim 由 12 個 sub-agent 平行抓取與驗證,分屬 7 個證據層級:
| 層級 | 來源 | 抓取內容 |
|---|---|---|
| L1 | Examine.com | 既有結論摘要 + 證據等級 |
| L2 | PubMed | 系統性回顧、meta-analysis、RCT |
| L4a | FDA / EMA / NIH ODS / Harvard / AAD 等 | 監管狀態、機構立場 |
| L4b | TFDA / 衛福部 | 台灣監管狀態 |
| L5b | Cochrane / 大型 RCT | 隨機對照試驗 |
| L5c | Meta-analysis 期刊 | 系統合成 |
| L5d | FDA Safety Communications / DailyMed | 副作用、禁忌 |
| L5e | ClinicalTrials.gov | 進行中試驗 |
| L10a | 廠商網站、廣告 | 廣告話術強度 |
| L10b | 跨平台行銷 | 廣告污染度 |
| L10c | PTT / Dcard / Mobile01 | 台灣社群討論 |
| L11 | Claude Opus 獨立評估 | 跨層 sanity check |
每一層的引用都必須以 PMID 或可追溯 URL 為依據。發布前所有 PMID 反查 NCBI Entrez 確認真實存在(目前 0 件 hallucination)。
36 級評等系統
S 強證據 ≥ 0.825 多篇高品質系統性回顧結論一致支持
A 中度 0.70–0.825 有大型 RCT 或 meta-analysis 支持
B 初步 0.55–0.70 有 RCT 但證據強度有限
C 薄弱 0.40–0.55 僅小規模試驗或機制研究
D 反證據 0.25–0.40 高品質證據顯示無效或有害
U 不足 < 0.25 證據量不足以下任何判斷
計分公式(簡化版)
raw_score = weighted_avg({
L1_score × 1.0, // Examine grade
L2_score × 1.0, // PubMed direction signal
L4a_score × 1.0, // 權威立場 (NIH ODS 額外 ×1.5)
L4b_score × 0.5, // TFDA 立場(權重較低)
L5b_score × 1.5, // Cochrane / 大型 RCT
L5c_score × 1.5, // Meta-analysis
L5d_score × 1.0, // 安全性(負向加成)
})
→ score_to_tier(raw_score) 嚴格 tier-floor 要求
光有分數還不夠 — 高 tier 還必須通過結構性門檻才能授予:
- S tier 要求:至少 2 篇 Cochrane / 大型獨立系統性回顧結論一致
- A tier 要求:至少 1 篇 meta-analysis 或大型 RCT + NIH ODS / Examine A grade
- B tier 要求:至少 1 篇 RCT 或 Examine B grade
- C tier 要求:至少 1 篇人體小型試驗
- D tier:高品質證據主導方向為「無效」或「有害」
- U tier:以上皆不符(資料不足)
如果分數高但結構門檻未過,會強制降級。
4跨層 sanity check(L11)
raw_score 算完後,Claude Opus 會以完全不看其他層的方式獨立評估:
- 直接搜 PubMed + 讀 abstract
- 給出獨立的 grade 與 reasoning
- 如果 Opus 結論與 aggregator 嚴重衝突 → 觸發 escalation:
- counter_evidence honor:如果 L11 認為「無效」而 aggregator 算出 B 以上 → 強制降為 D
- safety_review honor:如果 L11 偵測 FDA 主動警示 → 強制標
safety_review狀態
這層設計是為了防止「分數計算出問題但人類讀就知道錯了」的狀況。
5台灣噪音指數 (Consumer Market Risk)
獨立於 evidence tier 之外,每個 claim 還有一個消費市場噪音等級:
| 等級 | 視覺 | 意義 |
|---|---|---|
| high | 🚨 | 台灣市場行銷強度極高,PTT/Dcard 訊息混亂,需特別小心 |
| medium | ⚠️ | 中度行銷,但有可信來源可校驗 |
| low | ✨ | 市場資訊乾淨,主要靠醫學證據判斷 |
為什麼分開呈現:一個保健品可能科學上是 A tier(有效),但市場上是 🚨 high CMR(廣告吹噓過頭、台灣品牌品質差異大)— 兩個訊息都重要,使用者得同時看到。
6Status(狀態)標籤
每個 claim 還有一個 status 表達「在媒體與監管視角的處理方式」:
| Status | 意義 | 數量 |
|---|---|---|
| published | 主流共識支持,可放心引用 | 109 |
| published_with_warning | 證據支持但有副作用或族群限制 | 337 |
| disputed | 主流文獻間結論矛盾 | 93 |
| counter_evidence | 高品質證據顯示無效或有害 | 64 |
| needs_more_evidence | 證據不足以下定論 | 60 |
| tw_blackbox | 台灣市場資訊極不透明 | 42 |
| safety_review | FDA / EMA / TFDA 主動發出安全警示 | 12 |
7更新頻率
- PubMed 抓取:每月一次(核對新發表研究)
- 法規狀態檢查:每季一次
- TW 社群檢查:每月一次(PTT / Dcard / Mobile01)
- L11 sanity 重跑:每半年一次(或重大證據出現時觸發)
- 版本標籤:每個 claim 頁底部標
engine_version+aggregated_at
如果某 claim 兩年內無人重審,會在頁面標 ⚠️ 證據可能過時 提示。
8已知限制
我們不假裝這個引擎完美:
- L2 PubMed 召回率有限 — 約 80-90% 主流文獻可被涵蓋;冷門期刊與 preprint 可能漏抓
- L10c TW 社群覆蓋偏向公開平台 — Facebook 私密社團、LINE 群組無法抓
- 語言偏差 — 我們主要抓英文文獻,部分日韓研究可能漏
- 保健品快速更新 — 新成分(如 spermidine / urolithin-A)需數個月才有足夠 PubMed 文獻可分級
- L11 Opus 有 hallucination 風險 — 透過 PMID 反查防呆,但 reasoning 文字仍可能不準
我們會持續記錄這些誤差並修正引擎。
9引用本站
如果你是健康內容創作者、研究者、或開發者,歡迎引用本站:
@misc{gptdict_2026,
title = "{gpt-dict.com}: 保健品科學證據資料庫",
author = "Lenny Chen and gpt-dict-engine contributors",
year = "2026",
url = "https://gpt-dict.com/"
} 或在文章中加上:
<a href="https://gpt-dict.com/claim/{CLAIM_ID}/" rel="external">
證據來源:gpt-dict.com
</a> 我們希望這份資料庫成為台灣健康內容生態的基礎證據層。