兩百萬人檔相關介紹
第 1、2 組 200 萬人抽樣檔介紹:
衛生福利部衛生福利資料科學中心在100年度開放申請使用資料,但各檔案資料筆數及欄位繁多、 資料使用不易,對於較少使用相關資料庫經驗的使用者而言,有相當的困難,爰本中心開始提供 200 萬人之就醫及死因資料供使用者申請,以資料起始年分為兩種,一為 89 年開始往後 10 年之資料,一 為 94 年開始往後 5 年之資料,每次申請直接提供健保資料及死因資料之常用欄位。
使用 200 萬人抽樣檔之優點如下:
1. 資料量較小,程式執行時間短,較快獲得結果。
2. 無須選擇使用檔案和勾選欄位,申請手續較快。
3. 不用等待資料篩選的時間。
4. 收費便宜。
5. 可以用抽樣檔的結果做為使用全人口資料之參考。
另外,使用本檔案須注意以下幾點:
1. 因為資料起始年之後不會再補充新增人口,所以新生兒的資料只有起始年才有。
2. 僅提供常用欄位,需使用常用欄位以外之欄位需另外申請及計費。
200 萬人抽樣檔抽樣方法:
1. 將衛生福利部統計處整理的 89 年和 94 年之個人屬性檔經檢誤後(將重複資料、性別不詳、生日不 詳、年齡不合邏輯、地區不明者剔除),以該檔為抽樣母
體。
2. 將每筆個人資料之性別、年齡、地區分層:性別分為男女兩層;年齡分 20 層,每 5 歲一層到 85 歲以上,唯 5 歲以下再分出 28 天以下、28 天至 1 歲、
1 歲至 5 歲三層;地區以健保分局分層,共 6 層。總共分為 240(=2×20×6)層。
3. 計算每種分層在母體中的比例,以這個比例計算出各層在 200 萬人中會有多少人,作為該層之抽 樣數。
4. 在各分層中抽出該層的抽樣數,抽樣方法為隨機抽樣。
5. 將全部的資料垂直合併,得到 200 萬人抽樣檔之個人屬性檔,89 年檔有 2,000,118 人,94 年檔有 2,000,120 人。
6. 再以個人屬性檔以身分證字號比對出包含這些人的資料檔,包括健保門診明細檔(H_HNI_OPDTE)、 健保門診醫令檔(H_HNI_OPDTO)、健保住院明細檔(H_HNI_IPDTE)、健保住院醫令檔 (H_HNI_IPDTO)、健保藥局明細檔(H_HNI_DRUGE)、健保藥局醫令檔(H_HNI_DRUGO)、健保承保檔(H_NHI_ENROL)、死因檔(H_OST_DEATH)等資料檔。
99 年 200 萬人世代追蹤抽樣檔建置及驗證報告
一、 緣起 為提供研究經費額度有限或研究時間有限之計畫能應用衛生資料進行學術研究,於 100 年 8 月建置 200 萬人世代追蹤抽樣檔供外界申請使用,並規劃每 5 年為建置週期,目前已有 89 年及 94 年 2 組抽樣檔,內容包括健保資料及死因資料之常用欄位。其中 89 年 抽樣檔往後追蹤 14 年資料(89-102 年);94 年抽樣檔往後追蹤 9 年資料(94-102 年)及往前 追溯至 89 年(89-93 年)。
本部衛生福利資料科學中心第 3 組 200 萬人世代追蹤抽樣檔係以 99 年為起始年抽取 200 萬人,提供往後追蹤 5 年(99-103 年)及往前追溯至 89 年(89-98 年)之健保資料、癌症 登記資料及死因資料之常用欄位。
二、 99 年 200 萬人世代追蹤抽樣檔建置說明
(一) 抽樣母體 以 99 年 12 月 31 日之內政部戶籍檔人口為母體,比對 99 年健保在保人口,依下 列檢誤條件剔除不合宜資料後即為抽樣母體。
1. 非 2010 年內政部戶籍檔現住人口。
2. 非 2010 年健保在保者,2010 年健保在保者之定義為 2010 年 1 月至 2010 年 12 月間, 任一月在保者。
3. 身分證字號重複者(同身份證字號但生日不同)。
4. 性別不詳者。
5. 出生日期有誤者(包含欄位缺漏、格式錯誤、2010 年 12 月 31 日後出生等)。
6. 年齡非 0-120 歲者。
7. 2009 年 12 月 31 日(含)前死亡者。
8. 戶籍地不明者。
(二) 抽樣設計 將抽樣母體以性別、年齡及戶籍地為分層依據,依各層比例於各層內隨機抽取樣 本,本抽樣檔所需抽樣總人數為 200 萬人。
1. 分層準則與層數
(1) 性別:分為男、女,共 2 層。
(2) 年齡:分為日齡小於 28 天、日齡大於等於 28 天但未滿 1 歲、1 歲至未滿 5 歲、5 中華民國 104 年 8 月 24 日修訂 2 歲至未滿 10 歲、…、80 歲至未滿85 歲、85 歲以上,共 20 層。
(3) 地區:依戶籍地所屬之健保分局分為台北分局、北區分局、中區分局、南區分局、 高屏分局及東區分局,共 6 層。
2. 抽取樣本數 所需抽樣總人數為 200 萬人,依上述各層人口數佔抽樣母體人口數之比例分配 各層所需樣本。
3. 抽樣方法 採分層隨機抽樣法,以性別、年齡及戶籍地為分層依據,計算出各層所需抽取 樣本數後,進行抽樣,所需抽樣總人數為 200 萬人。
(三) 樣本代表性驗證 進行 200 萬人世代追蹤抽樣檔代表性驗證,驗證 200 萬人抽樣檔與抽樣母體間是 否 具 顯 著 性 差 異 , 其 中 類 別 變 項 驗 證 採 用 卡 方 檢 定 , 連 續 變 項 驗 證 採 用 K-S(Kolmogorov-Smirnov)檢定。
三、 第 3 組 200 萬人抽樣檔相較前 2 組抽樣檔之差異情形
(一) 比對 99 年健保承保檔在保人口,以避免比對健保資料後人數不足 200 萬人。
(二) 除進行十大死因及當年死亡人數分布驗證外,新增全民健保投保金額、投保地區、身分屬性、每年出生人數分布及健保住院就診率前五大疾病之年齡分布為驗證變項, 驗證 99 年 200 萬人世代追蹤抽樣檔與抽樣母體間是否具顯著性差異。
(三) 新增癌症登記檔為常用欄位。
詳情第 1、2 、3組 200 萬人抽樣檔介紹 https://dep.mohw.gov.tw/DOS/cp-2506-3633-113.html