方法論 · Methodology

方法論

從 PubMed 到分級結論的 7 步驟科學透明流程。

1我們的承諾

完全透明 — 每個 tier 等級背後都有可驗證的計算邏輯,公式公開、權重公開、PMID 公開。

有限承諾 — 我們不宣稱「真理」,只報告「目前可驗證的最佳證據」。當新證據出現,等級會更新。

獨立性 — 沒有廠商贊助、沒有付費上架、沒有業配。

27 層證據引擎

每個 claim 由 12 個 sub-agent 平行抓取與驗證,分屬 7 個證據層級:

層級來源抓取內容
L1Examine.com既有結論摘要 + 證據等級
L2PubMed系統性回顧、meta-analysis、RCT
L4aFDA / EMA / NIH ODS / Harvard / AAD 等監管狀態、機構立場
L4bTFDA / 衛福部台灣監管狀態
L5bCochrane / 大型 RCT隨機對照試驗
L5cMeta-analysis 期刊系統合成
L5dFDA Safety Communications / DailyMed副作用、禁忌
L5eClinicalTrials.gov進行中試驗
L10a廠商網站、廣告廣告話術強度
L10b跨平台行銷廣告污染度
L10cPTT / Dcard / Mobile01台灣社群討論
L11Claude Opus 獨立評估跨層 sanity check

每一層的引用都必須以 PMID 或可追溯 URL 為依據。發布前所有 PMID 反查 NCBI Entrez 確認真實存在(目前 0 件 hallucination)。

36 級評等系統

S 強證據 ≥ 0.825 多篇高品質系統性回顧結論一致支持
A 中度 0.70–0.825 有大型 RCT 或 meta-analysis 支持
B 初步 0.55–0.70 有 RCT 但證據強度有限
C 薄弱 0.40–0.55 僅小規模試驗或機制研究
D 反證據 0.25–0.40 高品質證據顯示無效或有害
U 不足 < 0.25 證據量不足以下任何判斷

計分公式(簡化版)

raw_score = weighted_avg({
    L1_score      × 1.0,      // Examine grade
    L2_score      × 1.0,      // PubMed direction signal
    L4a_score     × 1.0,      // 權威立場 (NIH ODS 額外 ×1.5)
    L4b_score     × 0.5,      // TFDA 立場(權重較低)
    L5b_score     × 1.5,      // Cochrane / 大型 RCT
    L5c_score     × 1.5,      // Meta-analysis
    L5d_score     × 1.0,      // 安全性(負向加成)
})

→ score_to_tier(raw_score)

嚴格 tier-floor 要求

光有分數還不夠 — 高 tier 還必須通過結構性門檻才能授予:

  • S tier 要求:至少 2 篇 Cochrane / 大型獨立系統性回顧結論一致
  • A tier 要求:至少 1 篇 meta-analysis 或大型 RCT + NIH ODS / Examine A grade
  • B tier 要求:至少 1 篇 RCT 或 Examine B grade
  • C tier 要求:至少 1 篇人體小型試驗
  • D tier:高品質證據主導方向為「無效」或「有害」
  • U tier:以上皆不符(資料不足)

如果分數高但結構門檻未過,會強制降級。

4跨層 sanity check(L11)

raw_score 算完後,Claude Opus 會以完全不看其他層的方式獨立評估:

  • 直接搜 PubMed + 讀 abstract
  • 給出獨立的 grade 與 reasoning
  • 如果 Opus 結論與 aggregator 嚴重衝突 → 觸發 escalation:
    • counter_evidence honor:如果 L11 認為「無效」而 aggregator 算出 B 以上 → 強制降為 D
    • safety_review honor:如果 L11 偵測 FDA 主動警示 → 強制標 safety_review 狀態

這層設計是為了防止「分數計算出問題但人類讀就知道錯了」的狀況。

5台灣噪音指數 (Consumer Market Risk)

獨立於 evidence tier 之外,每個 claim 還有一個消費市場噪音等級

等級視覺意義
high🚨台灣市場行銷強度極高,PTT/Dcard 訊息混亂,需特別小心
medium⚠️中度行銷,但有可信來源可校驗
low市場資訊乾淨,主要靠醫學證據判斷

為什麼分開呈現:一個保健品可能科學上是 A tier(有效),但市場上是 🚨 high CMR(廣告吹噓過頭、台灣品牌品質差異大)— 兩個訊息都重要,使用者得同時看到。

6Status(狀態)標籤

每個 claim 還有一個 status 表達「在媒體與監管視角的處理方式」:

Status意義數量
published主流共識支持,可放心引用109
published_with_warning證據支持但有副作用或族群限制337
disputed主流文獻間結論矛盾93
counter_evidence高品質證據顯示無效或有害64
needs_more_evidence證據不足以下定論60
tw_blackbox台灣市場資訊極不透明42
safety_reviewFDA / EMA / TFDA 主動發出安全警示12

7更新頻率

  • PubMed 抓取:每月一次(核對新發表研究)
  • 法規狀態檢查:每季一次
  • TW 社群檢查:每月一次(PTT / Dcard / Mobile01)
  • L11 sanity 重跑:每半年一次(或重大證據出現時觸發)
  • 版本標籤:每個 claim 頁底部標 engine_version + aggregated_at

如果某 claim 兩年內無人重審,會在頁面標 ⚠️ 證據可能過時 提示。

8已知限制

我們不假裝這個引擎完美:

  • L2 PubMed 召回率有限 — 約 80-90% 主流文獻可被涵蓋;冷門期刊與 preprint 可能漏抓
  • L10c TW 社群覆蓋偏向公開平台 — Facebook 私密社團、LINE 群組無法抓
  • 語言偏差 — 我們主要抓英文文獻,部分日韓研究可能漏
  • 保健品快速更新 — 新成分(如 spermidine / urolithin-A)需數個月才有足夠 PubMed 文獻可分級
  • L11 Opus 有 hallucination 風險 — 透過 PMID 反查防呆,但 reasoning 文字仍可能不準

我們會持續記錄這些誤差並修正引擎。

9引用本站

如果你是健康內容創作者、研究者、或開發者,歡迎引用本站:

@misc{gptdict_2026,
  title  = "{gpt-dict.com}: 保健品科學證據資料庫",
  author = "Lenny Chen and gpt-dict-engine contributors",
  year   = "2026",
  url    = "https://gpt-dict.com/"
}

或在文章中加上:

<a href="https://gpt-dict.com/claim/{CLAIM_ID}/" rel="external">
  證據來源:gpt-dict.com
</a>

我們希望這份資料庫成為台灣健康內容生態的基礎證據層。