方法論 · Methodology

方法論

從 PubMed 到分級結論的 7 步驟科學透明流程。

1我們的承諾

完全透明 — 每個 tier 等級背後都有可驗證的計算邏輯，公式公開、權重公開、PMID 公開。

有限承諾 — 我們不宣稱「真理」，只報告「目前可驗證的最佳證據」。當新證據出現，等級會更新。

獨立性 — 沒有廠商贊助、沒有付費上架、沒有業配。

27 層證據引擎

每個 claim 由 12 個 sub-agent 平行抓取與驗證，分屬 7 個證據層級：

層級	來源	抓取內容
L1	Examine.com	既有結論摘要 + 證據等級
L2	PubMed	系統性回顧、meta-analysis、RCT
L4a	FDA / EMA / NIH ODS / Harvard / AAD 等	監管狀態、機構立場
L4b	TFDA / 衛福部	台灣監管狀態
L5b	Cochrane / 大型 RCT	隨機對照試驗
L5c	Meta-analysis 期刊	系統合成
L5d	FDA Safety Communications / DailyMed	副作用、禁忌
L5e	ClinicalTrials.gov	進行中試驗
L10a	廠商網站、廣告	廣告話術強度
L10b	跨平台行銷	廣告污染度
L10c	PTT / Dcard / Mobile01	台灣社群討論
L11	Claude Opus 獨立評估	跨層 sanity check

每一層的引用都必須以 PMID 或可追溯 URL 為依據。發布前所有 PMID 反查 NCBI Entrez 確認真實存在（目前 0 件 hallucination）。

36 級評等系統

S 強證據 ≥ 0.825 多篇高品質系統性回顧結論一致支持

A 中度 0.70–0.825 有大型 RCT 或 meta-analysis 支持

B 初步 0.55–0.70 有 RCT 但證據強度有限

C 薄弱 0.40–0.55 僅小規模試驗或機制研究

D 反證據 0.25–0.40 高品質證據顯示無效或有害

U 不足 < 0.25 證據量不足以下任何判斷

計分公式（簡化版）

raw_score = weighted_avg({
    L1_score      × 1.0,      // Examine grade
    L2_score      × 1.0,      // PubMed direction signal
    L4a_score     × 1.0,      // 權威立場 (NIH ODS 額外 ×1.5)
    L4b_score     × 0.5,      // TFDA 立場（權重較低）
    L5b_score     × 1.5,      // Cochrane / 大型 RCT
    L5c_score     × 1.5,      // Meta-analysis
    L5d_score     × 1.0,      // 安全性（負向加成）
})

→ score_to_tier(raw_score)

嚴格 tier-floor 要求

光有分數還不夠 — 高 tier 還必須通過結構性門檻才能授予：

S tier 要求：至少 2 篇 Cochrane / 大型獨立系統性回顧結論一致
A tier 要求：至少 1 篇 meta-analysis 或大型 RCT + NIH ODS / Examine A grade
B tier 要求：至少 1 篇 RCT 或 Examine B grade
C tier 要求：至少 1 篇人體小型試驗
D tier：高品質證據主導方向為「無效」或「有害」
U tier：以上皆不符（資料不足）

如果分數高但結構門檻未過，會強制降級。

4跨層 sanity check（L11）

raw_score 算完後，Claude Opus 會以完全不看其他層的方式獨立評估：

直接搜 PubMed + 讀 abstract
給出獨立的 grade 與 reasoning
如果 Opus 結論與 aggregator 嚴重衝突 → 觸發 escalation：
- counter_evidence honor：如果 L11 認為「無效」而 aggregator 算出 B 以上 → 強制降為 D
- safety_review honor：如果 L11 偵測 FDA 主動警示 → 強制標 safety_review 狀態

這層設計是為了防止「分數計算出問題但人類讀就知道錯了」的狀況。

5台灣噪音指數 (Consumer Market Risk)

獨立於 evidence tier 之外，每個 claim 還有一個消費市場噪音等級：

等級	視覺	意義
high	🚨	台灣市場行銷強度極高，PTT/Dcard 訊息混亂，需特別小心
medium	⚠️	中度行銷，但有可信來源可校驗
low	✨	市場資訊乾淨，主要靠醫學證據判斷

為什麼分開呈現：一個保健品可能科學上是 A tier（有效），但市場上是 🚨 high CMR（廣告吹噓過頭、台灣品牌品質差異大）— 兩個訊息都重要，使用者得同時看到。

6Status（狀態）標籤

每個 claim 還有一個 status 表達「在媒體與監管視角的處理方式」：

Status	意義	數量
published	主流共識支持，可放心引用	109
published_with_warning	證據支持但有副作用或族群限制	355
disputed	主流文獻間結論矛盾	89
counter_evidence	高品質證據顯示無效或有害	65
needs_more_evidence	證據不足以下定論	45
tw_blackbox	台灣市場資訊極不透明	42
safety_review	FDA / EMA / TFDA 主動發出安全警示	12

7更新頻率

PubMed 抓取：每月一次（核對新發表研究）
法規狀態檢查：每季一次
TW 社群檢查：每月一次（PTT / Dcard / Mobile01）
L11 sanity 重跑：每半年一次（或重大證據出現時觸發）
版本標籤：每個 claim 頁底部標 engine_version + aggregated_at

如果某 claim 兩年內無人重審，會在頁面標 ⚠️ 證據可能過時 提示。

8準確度與校準

我們對自己做了盲測。隨機抽出 5% 的 claim（36 個，S/A/B/C/D/U 每級各 6 個），每一個都交給一個獨立評估者從零開始重新評級——重查 PubMed / Cochrane / FDA / NIH，並主動搜尋反證，使用我們公開的同一套 S–U 標準，全程看不到引擎原本的等級，評完才比對。

指標	結果
tier 完全一致（初版 5% 抽審，n=36）	39%
誤差在 ±1 級以內（初版）	75%
tier 完全一致（76 次校正後，20% 重審 n=146）	56% ⬆
誤差在 ±1 級以內（重審）	86% ⬆
引擎比獨立評估者更樂觀（高估方向）	3 個（其中 2 個其實是引擎才對）
引擎比獨立評估者更保守	19 個

在 6 級序數量表上，±1 級以內才是合理的一致區間——同一批證據，不同審查者本來就常差一級。真正重要的是錯的方向。

最關鍵的方向：對健康內容而言，最危險的錯誤是「高估證據、把沒效的講成有效」。在這個方向上引擎幾乎沒有失誤——36 個樣本裡只有 1 個評級偏寬鬆（軟骨素 × 皮膚老化，已透過下述裁決校正為 U），其餘分歧幾乎都是引擎比獨立評估者更謹慎。對 YMYL 健康主題，我們寧可低估也不誇大。

誠實的但書：這只是單一獨立評估者，不是絕對真理——它本身也可能偏樂觀。所以我們把每一個分歧當成「應該重新檢視這個 claim」的訊號，而不是自動照它改級。健康評級不該被單一意見隨意翻動。

我們已經做了下一輪：三個多評審裁決面板（每個 claim 3 位獨立評審 + 結構性 tier-floor 規則）重審了爭議、「資料不足」與「薄弱」的 claim，套用 76 個校正——包含「有高品質證據證明無效」的下修（如維生素 E × 心血管疾病、卡瓦 × 失眠、硒 × 第二型糖尿病）以及定義性療法／被低估的上修（如維生素 C × 壞血病 U→A、輔酶 Q10 × 心衰竭 U→B、褪黑激素 × 失眠 C→B）。每個被校正的 claim 頁面都附有「人工議決評級」說明，並完整保留引擎原本計算的等級。

校正後我們做了更大樣本（20%、146 個）的盲測重審來驗證：tier 完全一致從 39% 升到 56%、±1 級內從 75% 升到 86%——獨立證據顯示這些校正真的改善了校準，而非只是改數字。我們會定期重跑並在此公開更新。

9已知限制

我們不假裝這個引擎完美：

L2 PubMed 召回率有限 — 約 80-90% 主流文獻可被涵蓋；冷門期刊與 preprint 可能漏抓
L10c TW 社群覆蓋偏向公開平台 — Facebook 私密社團、LINE 群組無法抓
語言偏差 — 我們主要抓英文文獻，部分日韓研究可能漏
保健品快速更新 — 新成分（如 spermidine / urolithin-A）需數個月才有足夠 PubMed 文獻可分級
L11 Opus 有 hallucination 風險 — 透過 PMID 反查防呆，但 reasoning 文字仍可能不準

我們會持續記錄這些誤差並修正引擎。

10引用本站

如果你是健康內容創作者、研究者、或開發者，歡迎引用本站：

@misc{gptdict_2026,
  title  = "{gpt-dict.com}: 保健品科學證據資料庫",
  author = "Lenny Chen and gpt-dict-engine contributors",
  year   = "2026",
  url    = "https://gpt-dict.com/"
}

或在文章中加上：

<a href="https://gpt-dict.com/claim/{CLAIM_ID}/" rel="external">
  證據來源：gpt-dict.com
</a>

我們希望這份資料庫成為台灣健康內容生態的基礎證據層。