研究新知分享 -成癮治療與處育專業養成計畫

2025／07 王彥文碩士生、陳為堅特聘研究員

全民健康保險研究資料庫 (National Health Insurance Research Database; 以下簡稱健保資料庫) 裡有關思覺失調症與情感性疾患的申報診斷碼，對比精神科醫師以病歷回顧做出的診斷，可以評估這些診斷碼的效度。根據國家衛生研究院與國立臺灣大學跨機構團隊的最新研究結果顯示，住院病患常見診斷中的狹窄類別 (例如：思覺失調症) 或寬廣類別 (例如：精神病症、雙極性疾患、與重度憂鬱症)，其申報診斷碼的兩種效度指標，陽性預測值 (positive predictive value, PPV) 與敏感度 (sensitivity)，都屬高效度 (≥ 0.70)。然而，對於住院病患較為少見的診斷，其申報診斷碼的效度就較為不高。此外，使用ICD-10-CM 的申報診斷碼在大多數類別中表現略優於 ICD-9-CM的申報診斷碼。這項研究剛於2025年7月10日在Clinical Epidemiology 線上刊出。

精神疾病的全球負擔逐年增加

精神病症疾患 (psychotic disorders)，包括思覺失調症 (schizophrenia)、思覺失調情感症 (schizoaffective disorder)、類思覺失調症 (schizophreniform disorder)、短暫精神病症 (brief psychotic disorder)、以及情感性疾患伴有精神病性特徵 (affective disorder with psychotic features)，全球盛行率約為3%。若再加上無精神病性特徵之雙極性疾患與重度憂鬱症 (nonpsychotic forms of depressive disorder and bipolar disorder)，這些疾患在失能調整生命年 (disability-adjusted life year, DALY) 所佔比率從1990年的3.1% 增加到2019年的 4.9%。由於精神病性症狀的複雜性，成為流行病學調查上的挑戰；因此，利用保險申報或其他行政措施的資料庫進行的研究，日益增多。

臺灣健保資料庫

臺灣自從 1995 年實施全民健保制度以來，全民健康保險研究資料庫 (National Health Insurance Research Database, NHIRD) 成為臺灣規模最大且最具代表性的醫療資料庫，幾乎涵蓋全國 99% 以上人口的就醫資訊。由於其涵蓋全人口的特性，加上資料可縱向串連，以及具成本效益高等優點，該資料庫已被廣泛應用於各類疾病的流行病學探討與健康政策分析。不過，健保資料主要是醫療院所向健保署提出之費用申報資料，未必完整反映臨床判斷。從2011年起，陸續有研究選擇特定疾病，檢查其病歷記載來評估申報診斷碼的效度，包括缺血性中風、急性心肌梗塞、乾癬、慢性阻塞性肺病、癌症、與青光眼等，發現這些診斷都有高的陽性預測值與敏感度。然而，目前尚未有研究評估精神疾病診斷碼的效度。此外，臺灣從2016年起將編碼系統從 ICD-9-CM 轉換成 ICD-10-CM，診斷分類與細節有所差異，是否對診斷碼效度有所影響，亦值得探討。許多方法學研究指出，使用有分類錯誤的申報診斷碼進行統計推論，若無適當的校正，可能產生分類錯誤偏差 (misclassification bias)，影響研究結果的效度。

本研究的目的與方法

精神疾病診斷相較於身體疾病，缺乏有效的生物指標，診斷依賴臨床症狀與病程。因此，要評估健保資料庫之診斷碼的效度時並不容易。因此，本研究有三項主要目的： (1) 建立標準化的病歷回顧流程，探討不同精神科醫師對住院病人進行病歷回顧做出之診斷的評估者間信度 (interrater reliability)； (2) 比較 NHIRD 中思覺失調症與情感性疾患之申報診斷碼與病歷回顧所得之診斷，估算其陽性預測值與敏感度；(3) 分析編碼系統從 ICD第九版轉換至ICD第十版對申報診斷碼效度的影響。

本項橫斷性診斷效度研究以 2015 年 (使用 ICD-9-CM 編碼) 與 2017 年 (使用 ICD-10-CM 編碼) 兩個年度，曾經住院於臺大醫院本院及三家分院（新竹、竹北與雲林分院，分別位於都市、次都市與鄉村地區）精神科的 18 至 65 歲病人為研究對象。我們選擇12 類精神疾病診斷：思覺失調症 (簡稱SZ)、思覺失調情感症、躁症/雙極性情感疾患伴有精神病性特徵 (manic/mixed episode with psychotic features，簡稱 MEP)、重度憂鬱症伴有精神病性特徵 (depressive episode with psychotic features，簡稱 DEP)、物質誘發的精神病症、妄想症、無精神病性特徵之重度憂鬱症 (major depressive disorder without psychotic features，簡稱MDDNP)、無精神病性特徵之雙極性疾患(bipolar disorder without psychotic features，簡稱BDNP)、未另分類之憂鬱症、循環性情感疾患、持續性憂鬱症，以及其他精神病性疾病。符合這12類診斷的住院病人，2015年有1596人而2017年有1481人。

考量可行性，我們設定這兩個年度各選出400名病患。另外，為了讓更多診斷類別有足夠人數可供評估，我們先設定五大核心診斷類別，包括思覺失調症、躁症伴有精神病性特徵、憂鬱症伴有精神病性特徵、無精神病性特徵之雙極性疾患，以及無精神病性特徵之重度憂鬱症，每一年度思覺失調症隨機選出100人，其餘4類核心診斷各選出50人。其餘的200人則由其他7種診斷類別選出：人數若只有21人或更少，則全數納入；其餘的診斷類別，則依數量等比例抽出。

研究流程分兩階段：第一階段是建立病歷回顧標準化診斷流程來評估醫師們的評估者間信度，第二階段則是以病歷回顧所得之診斷來評估申報診斷碼的效度。在第一階段，我們針對五大核心診斷類別，從800位病患中抽出 50 位病人病歷，由十位精神科醫師進行交叉病歷回顧；每份病歷由四位不同醫師獨立回顧，再以組內相關係數信度 (intraclass correlation coefficient reliability, ICCR) 來估算評估者間信度。後來有2位住院病人因有智能障礙而被排除，因此共有48位病患納入信度評估。病歷回顧的標準化流程，係透過線上平台 REDCap 系統進行。我們為回顧流程所建立之結構式審查表單，則是根據 ICD-9 與 ICD-10 編碼架構設計，並參考精神疾病診斷及統計手冊第五版 (DSM-5) 診斷準則與臨床實務經驗加以調整。

第二階段的病歷回顧，則是將其餘的750 位病患，分派給16位精神科醫師進行病歷回顧診斷。後來有23位住院病人因有智能障礙而被排除。最後共有727位病患同時有病歷回顧診斷與申報診斷碼，分別計算申報診斷碼是否符合病歷回顧之診斷，區分為真陽性、假陽性、或假陰性，進而可計算各診斷碼之陽性預測值與敏感度，以評估診斷碼之效度。

病歷回顧之評估者間信度

由十位精神科醫師對48份病歷進行交叉回顧後所獲得的組內相關係數信度 (ICCR)，在五大核心診斷中，思覺失調症的 ICCR 為 0.72、躁症伴有精神病性特徵為 0.70、無精神病性特徵之雙極性疾患為 0.69、無精神病性特徵之重度憂鬱症為 0.62，皆屬良好評估者間信度。然而，重度憂鬱症伴有精神病性特徵的 ICCR則僅為 0.47，可能因個案數較少所致。此外，三個寛廣診斷類別也有良好的評估者間信度，包含精神病性疾患 (0.64)、雙極性疾患 (0.74) 及重度憂鬱症 (0.60)。

申報診斷碼的效度

比較病歷回顧診斷與保險申報診斷碼，可估算出各申報診斷類別之陽性預測值與敏感度；若是達到0.70 或更高，根據偏差量化分析 (quantitative bias analysis) 方面的文獻，可說是高表現 (high performing) 效度。以陽性預測值來說，代表的意義是若有申報診斷碼，則在病歷回顧診斷中也會出現的機率。在五大核心診斷中，有兩項診斷之陽性預測值超過 0.70，分別為思覺失調症 (0.94) 與無精神病性特徵之重度憂鬱症 (MDDNP, 0.78)；其餘三項核心診斷的陽性預測值則為中等程度，包含躁症伴有精神病性特徵 (MEP, 0.67)、重度憂鬱症伴有精神病性特徵 (DEP, 0.61)、與無精神病性特徵之雙極性疾患 (BDNP, 0.58)。在其他狹窄診斷類別中，物質誘發的精神病之陽性預測值較高 (0.88)，思覺失調情感症 (0.58) 與妄想症 (0.68) 為中等，而其餘低盛行率之住院診斷的陽性預測值則多數低於 0.50。

另一方面，敏感度代表的意義是若在病歷回顧中出現的診斷，也會在申報診斷碼出現的機率。在五大核心診斷中，有三項的敏感度超過 0.70，分別為思覺失調症 (0.84)、躁症伴有精神病性特徵 (0.71)、與重度憂鬱症伴有精神病性特徵 (0.78)。其餘兩項診斷的敏感度則為中等，分別是無精神病性特徵之雙極性疾患 (BDNP) 的0.63與無精神病性特徵之重度憂鬱症(MDDNP) 的 0.61。其他低盛行率之住院診斷類別，整體的敏感度都較低。

然而，若將狹窄診斷合併為寛廣診斷類別，則陽性預測值與敏感度都會提升到高於 0.70。例如：思覺失調症/分裂情感性疾患對應的效度分別為 0.94 (陽性預測值) 與 0.88 (敏感度)；精神病性疾患為 0.88 與 0.86；雙極性疾患為 0.82 與 0.84；而重度憂鬱症則為 0.81 與 0.79。這些結果顯示，使用寛廣診斷類別可有較高的診斷效度。

相較之下，低盛行率的住院診斷碼，其效度指標較為不穩定。例如，物質誘發的精神病症的陽性預測值雖達 0.88，但敏感度僅為 0.41，表示許多病歷回顧中會出現的物質誘發的精神病症，並未被正確申報。反之，妄想症的敏感度高達 0.93，但陽性預測值僅為 0.68，顯示這類診斷較容易被過度申報。

編碼系統從 ICD第九版轉換至ICD第十版對申報診斷碼效度的影響

本研究的另一項特色，是進一步比較 ICD-9-CM 與 ICD-10-CM 兩種編碼系統所產生的申報診斷碼，它們對應的的效度指標。結果發現， 2017 年住院病患所採用的ICD-10-CM 診斷碼，在大多數診斷類別中，其效度指標略優於2015 年住院病患所採用的 ICD-9-CM診斷碼。推測可能與 ICD-10 編碼要求較為細緻、分類更具臨床意義，以及轉換初期實施之教育訓練與審核機制有關。

結語

本研究為臺灣首例以病歷回顧之實證方法，有系統性檢驗健保資料庫裡精神疾病診斷碼之效度研究，亦為首度同時比較 ICD-9 與 ICD-10 編碼在精神疾病診斷效度之差異。我們發現，住院病患常見診斷中的狹窄類別 (例如：思覺失調症) 或寬廣類別 (例如：精神病症、雙極性疾患、與重度憂鬱症)，其申報診斷碼的兩種效度指標，陽性預測值與敏感度，都屬高效度 (≥ 0.70)。然而，對於住院病患較為少見的診斷，其申報診斷碼的效度就較為不高。此外，使用ICD-10-CM 的申報診斷碼在大多數類別中表現略優於 ICD-9-CM的申報診斷碼。本研究結果可作為使用健保資料庫進行精神疾病之流行病學探討與健康政策分析時的有用參考，並為後續研究與資料庫驗證提供可借鏡的標準化流程。

全文出處:

Wang Y-W, Liu C-C, Chen H-C, Wu C-S, Chan J-H, Chen C-C, Huang W-L, Liao S-C, Hwang TJ, Chen WJ. Assessing the validity of claims-based diagnostic codes for psychotic and affective disorders and the influence of the coding transition from the ICD-9 to the ICD-10 in Taiwan’s National Health Insurance Research Database. Clinical Epidemiology 2025; 17:635-645.

健保資料庫有關思覺失調症與情感性疾患診斷碼的效度評估與編碼系統從ICD-9轉換成ICD-10的影響