两百万人档相关介绍

  • 2015-08-25
  • 吴 昱辰

第 1、2 组 200 万人抽样档介绍
卫生福利部卫生福利资料科学中心在100年度开放申请使用资料,但各档案资料笔数及字段繁多、 资料使用不易,对于较少使用相关数据库经验的使用者而言,有相当的困难,爰本中心开始提供 200 万人之就医及死因资料供使用者申请,以资料起始年分为两种,一为 89 年开始往后 10 年之资料,一 为 94 年开始往后 5 年之资料,每次申请直接提供健保资料及死因资料之常用字段。
使用 200 万人抽样档之优点如下:
1. 资料量较小,程式执行时间短,较快获得结果。
2. 无须选择使用档案和勾选字段,申请手续较快。
3. 不用等待资料筛选的时间。
4. 收费便宜。
5. 可以用抽样档的结果做为使用全人口资料之参考。
另外,使用本档案须注意以下几点:
1. 因为资料起始年之后不会再补充新增人口,所以新生儿的资料只有起始年才有。
2. 仅提供常用字段,需使用常用字段以外之字段需另外申请及计费。 

200 万人抽样档抽样方法:
1. 将卫生福利部统计处整理的 89 年和 94 年之个人属性档经检误后(将重复资料、性别不详、生日不 详、年龄不合逻辑、地区不明者剔除),以该档为抽样母
体。
2. 将每笔个人资料之性别、年龄、地区分层:性别分为男女两层;年龄分 20 层,每 5 岁一层到 85 岁以上,唯 5 岁以下再分出 28 天以下、28 天至 1 岁、
1 岁至 5 岁三层;地区以健保分局分层,共 6 层。总共分为 240(=2×20×6)层。
3. 计算每种分层在母体中的比例,以这个比例计算出各层在 200 万人中会有多少人,作为该层之抽 样数。
4. 在各分层中抽出该层的抽样数,抽样方法为随机抽样。
5. 将全部的资料垂直合并,得到 200 万人抽样档之个人属性档,89 年档有 2,000,118 人,94 年档有 2,000,120 人。
6. 再以个人属性档以身分证字号比对出包含这些人的资料档,包括健保门诊明细档(H_HNI_OPDTE)、 健保门诊医令档(H_HNI_OPDTO)、健保住院明细档(H_HNI_IPDTE)、健保住院医令档 (H_HNI_IPDTO)、健保药局明细档(H_HNI_DRUGE)、健保药局医令档(H_HNI_DRUGO)、健保承保档(H_NHI_ENROL)、死因档(H_OST_DEATH)等资料档。

99 年 200 万人世代追踪抽样档建置及验证报告
一、 缘起 为提供研究经费额度有限或研究时间有限之计画能应用卫生资料进行学术研究,于 100 年 8 月建置 200 万人世代追踪抽样档供外界申请使用,并规划每 5 年为建置周期,目前已有 89 年及 94 年 2 组抽样档,内容包括健保资料及死因资料之常用欄位。其中 89 年 抽样档往后追踪 14 年资料(89-102 年);94 年抽样档往后追踪 9 年资料(94-102 年)及往前 追溯至 89 年(89-93 年)。
本部卫生福利资料科学中心第 3 组 200 万人世代追踪抽样档系以 99 年为起始年抽取 200 万人,提供往后追踪 5 年(99-103 年)及往前追溯至 89 年(89-98 年)之健保资料、癌症 登记资料及死因资料之常用欄位。

二、 99 年 200 万人世代追踪抽样档建置说明
(一) 抽样母体 以 99 年 12 月 31 日之内政部户籍档人口为母体,比对 99 年健保在保人口,依下 列检误条件剔除不合宜资料后即为抽样母体。
1. 非 2010 年内政部户籍档现住人口。
2. 非 2010 年健保在保者,2010 年健保在保者之定义为 2010 年 1 月至 2010 年 12 月间, 任一月在保者。
3. 身分证字号重复者(同身份证字号但生日不同)。
4. 性别不详者。
5. 出生日期有误者(包含欄位缺漏、格式错误、2010 年 12 月 31 日后出生等)。
6. 年龄非 0-120 岁者。
7. 2009 年 12 月 31 日(含)前死亡者。
8. 户籍地不明者。
(二) 抽样设计 将抽样母体以性别、年龄及户籍地为分层依据,依各层比例于各层内随机抽取样 本,本抽样档所需抽样总人数为 200 万人。
1. 分层准则与层数
(1) 性别:分为男、女,共 2 层。
(2) 年龄:分为日龄小于 28 天、日龄大于等于 28 天但未满 1 岁、1 岁至未满 5 岁、5 中华民国 104 年 8 月 24 日修订 2 岁至未满 10 岁、…、80 岁至未满85 岁、85 岁以上,共 20 层。
(3) 地区:依户籍地所属之健保分局分为台北分局、北区分局、中区分局、南区分局、 高屏分局及东区分局,共 6 层。
2. 抽取样本数 所需抽样总人数为 200 万人,依上述各层人口数佔抽样母体人口数之比例分配 各层所需样本。
3. 抽样方法 采分层随机抽样法,以性别、年龄及户籍地为分层依据,计算出各层所需抽取 样本数后,进行抽样,所需抽样总人数为 200 万人。
(三) 样本代表性验证 进行 200 万人世代追踪抽样档代表性验证,验证 200 万人抽样档与抽样母体间是 否 具 显 着 性 差 异 , 其 中 类 别 变 项 验 证 采 用 卡 方 检 定 , 连 续 变 项 验 证 采 用 K-S(Kolmogorov-Smirnov)检定。

三、 第 3 组 200 万人抽样档相较前 2 组抽样档之差异情形
(一) 比对 99 年健保承保档在保人口,以避免比对健保资料后人数不足 200 万人。
(二) 除进行十大死因及当年死亡人数分布验证外,新增全民健保投保金额、投保地区、身分属性、每年出生人数分布及健保住院就诊率前五大疾病之年龄分布为验证变项, 验证 99 年 200 万人世代追踪抽样档与抽样母体间是否具显着性差异。
(三) 新增癌症登记档为常用欄位。


详情
第 1、2 、3组 200 万人抽样档介绍     https://dep.mohw.gov.tw/DOS/cp-2506-3633-113.html