第13回 匿名医療情報等の提供に関する専門委員会 議事録

保険局医療介護連携政策課保険データ企画室

日 時

2022年12月7日(水) 13:00~17:00

場 所

Web

出席者

【専門委員】
・宇佐美 伸治(日本歯科医師会 常務理事)
・齋藤 俊哉(国民健康保険中央会 理事)
・嵩 さやか(東北大学大学院法学研究科 教授)
・田尻 泰典(日本薬剤師会 副会長)
・田中 純子(広島大学 大学院医系科学研究科 疫学・疾病制御学 教授)
・東宮 秀夫(一般財団法人 医薬品医療機器レギュラトリーサイエンス財団 理事)
・長島 公之(日本医師会 常任理事)
・中島 誠(全国健康保険協会 理事、代理:矢崎 和彦)
・中野 壮陛(公益財団法人医療機器センター 専務理事)
・中野 惠(健康保険組合連合会 参与)
・野口 晴子(早稲田大学政治経済学術院 教授)
・堀 真奈美(東海大学健康学部長 兼 健康マネジメント学科 教授)
・宮島 香澄(日本テレビ報道局 解説委員)
・山本 隆一(一般財団法人医療情報システム開発センター 理事長)

議 題

  1. 1. NDBの個人識別情報の補正作業について(報告)
  2. 2. NDBと死亡情報の連結について
  3. 3. トライアルデータセット(仮称)の仕様について
  4. 4. 個別審査(非公開)

議 事

 
山本委員長 定刻を過ぎましたので、ただいまより第13回「匿名医療情報等の提供に関する専門委員会」を開催いたします。
委員の皆様におかれましては、御多忙の折、御参加いただき、ありがとうございます。
本日から新たに野口委員に御参加いただいておりますが、御参加いただいていますでしょうか。
野口委員 参加しております。遅れまして、すみません。
山本委員長 それでは、簡単に一言御挨拶をお願いいたします。
野口委員
早稲田大学の野口晴子と申します。今日は遅れてしまい、申し訳ございませんでした。何とぞよろしくお願いいたします。
山本委員長 よろしくお願いいたします。
それでは、早速、委員の出欠状況について事務局から報告をお願いいたします。
坂本室長補佐 医療介護連携政策課の坂本でございます。
本日は、御参加いただき、誠にありがとうございます。
今回は、専門委員の皆様全てがウェブ参加されております。中島委員の参考人として矢崎参考人が代理出席いただいております。また、松田委員、鹿野委員は御欠席と伺っております。
以上でございます。
山本委員長 ありがとうございます。
それでは、早速ですが、本日の議事に入らせていただきたいと思います。
会議冒頭のカメラの頭撮りはここまでとさせていただきます。
  (報道関係者退室)
山本委員長 それでは、議題1「NDBの個人識別情報の補正作業について(報告)」、資料1の説明をお願いいたします。
水谷課長 医療介護連携政策課長でございます。
資料1「NDBの個人識別情報の補正作業について」を御説明申し上げます。
1ページ目でございます。NDBにおきましては、匿名化・提供システムにおいて生成された個人識別情報(ID)を付与した形でレセプト情報等を格納しているところでございます。
2ページ目を御覧いただきますと、ID1からID5まで、それぞれの特性に応じた形で個人識別情報を付与して格納されている、そうした状況を整理しているものでございます。
お戻りいただきまして、1ページ目の経緯の2つ目のポツでございます。個人識別情報を生成するプログラムに誤りがございまして、2021年12月取込分以降の一部のレセプト情報等について、異なる個人識別情報(ID)を付与していたことが判明いたしました。プログラムの誤りと申しますのは、※1を御覧いただきますと、IDを生成する過程でレセプト情報等に一部記号、ハイフンあるいは空白、そうしたものを変換する処理につきまして誤りが生じ、その結果として同一個人について異なるIDを生成してしまっていたというものでございます。したがって、同一個人について、12月取り込み分、9月診療分が主になりますが、その前後で同一個人を特定できない、そうした事例が生じていることが判明いたしました。
なお、こうした誤りが生じているのは、※2でございますが、ID1からID5のうち、一部のレセプト情報、具体的には2021年12月取込分から2022年10月取込分のID1とID3、一部の特定健診・保健指導情報(2020年度実施分)のID1でございまして、他のIDを用いた同一個人の特定を用いる利用等の場合には影響がないということでございます。
2の対応状況でございますが、現在、こうしたことにつきまして、NDBデータの補正作業ということで、個人識別情報を正しく付与するため、レセプト情報等の補正作業を行っております。それから、既に提供済みのデータがございますので、そうしたものにつきまして、利用目的に照らして影響があるかないかということを個別に確認させていただきました。本日時点で20件が確認されております。※3に書いておりますが、このほか、厚生労働省内の利用で同じく8件が確認されております。こうしたものにつきましては、正誤表の提供あるいはデータの再抽出等の対応を申請者と個別に御相談させていただいている状況でございます。今回、こうしたプログラム誤りによって関係する皆様に御迷惑をおかけしております。大変申し訳ございません。
このプログラム誤りでございますが、開発ツールのバージョン変更に伴いまして、プログラム改定時に意図せぬ変更等が生じたものと承知しております。一般的にこういうプログラムの改定のときに、プログラム改定を行った部分あるいはその影響を受ける部分、そうしたものに焦点を当ててテストを行っておりますが、今回、意図せぬ変更が生じた部分についてはテスト範囲の対象外となっていたところでございます。今後、再発防止のため、意図せぬ部分にこうしたプログラム変更が行われるといったことも想定して、プログラムに含まれる全ての処理をテストする運用ということを考えております。
私からの説明は以上でございます。よろしくお願いいたします。
山本委員長 ありがとうございました。
それでは、ただいまの御説明に関しまして、御意見、御質問等ありましたら、よろしくお願いいたします。
影響範囲の調査はまだやっている最中ですし、補正のデータが要るかどうかというのも利用者等にお聞きして対応を続けていくと思いますけれども、それでよろしゅうございますか。ありがとうございます。
それでは、議題2「NDBと死亡情報の連結について」、資料2の説明をお願いします。
水谷課長 医療介護連携政策課長でございます。
資料2「NDBと死亡情報の連結について」を御説明申し上げます。
NDBと死亡情報の連結につきましては、この専門委員会におきまして、8月31日に御了承いただきまして、9月8日の医療保険部会にその内容について御報告させていただきました。その際、2ページ目でございますが、医療保険部会におきまして死亡情報との連結は医療費適正化計画の作成に向けて必要であり、賛成。エビデンスに基づく政策形成にも寄与する。死亡情報の匿名化について丁寧に検討し、活用を進めることが大切ということで御了解いただいております。
ただ、そうした中で、科学的研究の観点から、個人が特定できない情報に関しては収載する方向性で検討できないか、実際、連結収載する死亡情報の範囲についてお示ししたのですが、例えば、死亡時間・分といった情報は、看取りの体制等の医療提供体制の在り方の検討とも関わるので、そうしたものも収載する方向で検討できないか、御検討いただきたい、そうした御意見があったところでございます。
こうした医療保険部会の御議論を踏まえまして、改めて事務局で検討させていただきまして、収載する死亡情報の範囲といたしまして、下の薄い水色のところに書いてありますが、もともと赤字で線が引いていない部分について死亡収載するということでこの委員会で御了解いただき、医療保険部会に報告したところですが、改めてそうした観点から点検を行いまして、下線が引いてある部分、「死亡年月日」の後の「時分」、それから「生後1年未満で病死した場合の追加事項」、こうしたものについてもNDBに収載することとしてはどうかということで本日お諮りしたいと考えております。
上のポツの「その際」のところですが、死亡情報と連結したNDBの匿名性が確保される、これは当然重要なことでございます。引き続き、ガイドラインに基づいて、利用者には研究内容から判断して必要最小限の範囲で利用される場合に限り提供するということ、そして、成果物の公表時には第三者による個人識別を回避する措置を講じていく、こうしたことは引き続き行ってまいります。
それから、NDBと死亡情報との連結識別子につきましては、厚生労働省において連結精度に係る調査研究を実施した上で、適切な方法によることとしてまいりたいと考えております。
3ページ目は、現行のガイドラインにおける関連する規定の抜粋を示しております。
簡単でございますが、説明は以上でございます。よろしくお願いいたします。
山本委員長 ありがとうございました。
ただいまの御説明に関しまして、御質問、御意見がありましたら、よろしくお願いいたします。
情報がリッチになる分、我々の提供に関する審査をよりしっかりとしていかなければならない、あるいは公表基準に関して十分配慮しなければいけないことになりますけれども、それ以外に御質問、御意見ございますか。中野先生、どうぞ。
中野(惠)委員
中野です。
質問とか意見ではなく、医療保険部会の意見を踏まえて、新たに見直して、原則は守りつつ範囲を広げるということで、今回の事務局の御提案に同意したいと思います。
山本委員長 ありがとうございます。
ほかに御意見ございませんでしょうか。
それでは、今の事務局の御提案どおりに進めさせていただきたいと思います。どうもありがとうございました。
続きまして、議題3「トライアルデータセット(仮称)の仕様について」、資料3の説明をお願いいたします。
水谷課長 医療介護連携政策課長でございます。
資料3「トライアルデータセット(仮称)の仕様について」を御説明申し上げます。
2ページを御覧いただけますでしょうか。現行のNDBの申請・申出制度、これは事前に利用するデータを絞り込んでいただく必要があるなど、こうしたデータベースについての知識を有しておられることが、ある意味、前提となっているということでございまして、新規にこうした利用を考えておられる方々等にとっては、そういうことがハードルになっているという要素もございます。したがって、より多くの方々にこうしたNDBのデータを使って研究に取り組んでいただけるよう、連結解析を容易とする解析環境におきまして、探索的な利用といったものをできるようにしてはどうかと考えております。
その際、こうしたNDB、介護DB等を利用したことがない研究者等がトライアルデータ(仮称)を用いて探索・試行的に分析するための環境を提供する、そうしたこととしてはどうかと考えております。
探索的利用環境でトライアルデータを提供する意義でございますが、NDBデータの構造、研究テーマ関連の実態、研究計画の実現可能性を把握し、リサーチクエスチョン、研究デザインを決定することを支援するということがあろうかと思います。また、SQLなどの知的財産は研究者の希望に沿ってダウンロードを可能とする、こうしたことによって円滑に進めるようにしてはどうかと考えております。
こうした際に提供されるデータでございますけれども、NDBに実際に収載されているデータに近いデータを提供するということが必要だと考えております。現在ありますサンプリングデータセットを基にいたしまして、さらに個人特定のリスクを軽減したデータセット、こうしたものを提供することとしてはどうかと考えております。
3ページは、現行のサンプリングデータセットの仕様についてお示ししているものでございます。対象となるレセプトは1月、4月、7月、10月というような一部のレセプトになっております。抽出につきましても、医科入院とDPCは10%の抽出、医科入院外、調剤は1%の抽出といった形で抽出を行っております。また、高額なレセプトにつきましては削除するとか、出現頻度の低いものは匿名化処理を行う、こうしたことによって個人が特定できないように配慮しているというものでございます。
4ページにお進みいただきまして、現在、京都大学医学部附属病院黒田教授のところにおきまして、NDBデータ分析の初学者の方が分析手法を習得するために必要な教育プログラムの開発といったことについて研究を行っていただいております。この研究の中で、サンプリングデータセットを加工して「レセプト情報・特定健診等情報の提供に関するガイドライン」の公表基準に準拠したデータセットを作成する、こうした研究を行っていただいております。したがって、この研究で作成したデータセットと同じ仕様によりまして、探索的利用環境で提供するトライアルデータセットを作成してはどうかと考えております。
事務局からの説明は以上でございます。
山本委員長 ありがとうございました。
続きまして、参考資料1について森参考人より説明をお願いいたします。
森参考人 改めまして、京都大学医療情報企画部の森と申します。私のほうから、本研究で作成したサンプリングデータセットの加工データセットを用いた学生実習における利用について御報告させていただきます。
先ほど御紹介がありましたとおり、本研究の名称は「医療データ利活用人材育成に資するデータ利用法の開発」で、黒田教授から申出させていただいております。
この研究自体の目的は、医療データの効果的な利活用の推進のために、データ分析を担う人材育成の必要性が高まっているという背景の下で、NDBデータセットについても、データを正しく取扱え、有効な分析ができる人材育成をしたいということでこの研究を開始しております。
本研究の背景としまして、文部科学省の「医療データ人材育成拠点形成事業」というものがございますが、京都大学が採択いただきまして、人材育成のプログラムを開発しているということがございます。この「医療データ人材育成拠点形成事業」に参加する大学院生を対象に今回開発したデータセットの有用性についての検証を行ってきました。この研究自体の成果につきましては、事業の報告書や、今後、学会等で発表していく予定としております。
事業自体の詳細について御紹介させていただきたいと思います。文科省の事業自体は、東京大学と京都大学が採択いただいて、京都大学が進めておりますのが「関西広域医療データ人材育成拠点形成事業」、略して「KUEP-DHI(キュープ・ディー)」でございます。
要件としましては、大学院修士課程または博士課程に人材育成コースを設置して、一定期間で知識と技術を習得できる研究コースを設置することとなっております。2020年4月に開講しておりまして、複数の大学が連携してということで、KUEP-DHIにおきましては、13大学で連携してこのプログラムを実施しています。補助期間を5年頂いておりまして、現在、4年目の事業でございます。
理想とする、育成したい人材像としまして、この図で説明させていただくことが多いのですが、KUEP-DHIにおきましては、医療情報の生成から、それがセキュアに伝送、蓄積され、さらに分析に至る加工をされ、最終的には公表されるという情報流の始点から終点までを確実に支えて正しく利用できるような人材を育成したいということで、幾つかの講義や実習を実施しております。ここに参加大学を記載しておりますが、関西広域の13大学が協力して行っています。
2021年度の取組状況について記載いたしました。今年度も同様に取り組んでいるのですが、京都大学において以下のような3つのコースを実施しております。今回のデータセットは医療データ取扱専門家育成コースで使用しております。あと、13大学からの外部聴講生の受入れや、教育コンテンツの改良ということで、医療情報を取り扱えるようなセキュアな実習環境を構築したり、今回報告させていただくNDBサンプリングデータセットを加工したデータセットを実習で利用しております。ほか、オンラインイベントや教科書作成等、2022年度も同様に取り組んでおります。
どういう授業で利用するかについて簡単に説明します。医療データ取扱専門家育成コースは、京都大学の医学研究科と情報学研究科に修士課程の追加履修コースとして設置しております。対象者は医学研究科の学生と情報学研究科の学生で、医学の背景と情報学の背景を持った両方の学生がミックスして受講しているようなコースです。
コンテンツとして、基礎科目と必修科目、選択科目というふうに設定しておりまして、それぞれ背景が別ですので、その背景に応じて必要な科目を履修して単位を取っていくというコースです。
2022年度は後期がまだ実施中ですが、2021年度に関しましては、受講生が21名でございました。先ほど申し上げたように様々な背景の学生が参加しており、情報学の学生はもともと情報には結構慣れている学生が多いのですが、医学の背景の学生も半数程度おりますので、彼らに関してはまさに初めてSQLをたたくような学生がたくさん参加しているようなコースです。
どのような講義かというのは割愛させていただきます。
今回のデータセットはその中でも医療情報学実習で利用させていただいております。この中の第7回、第8回にNDBデータの取扱いという形で、ここで加工データを使った実習を行っております。そのほかの回では、基礎的なエクセルから、R、Pythonという形の解析の手法を学んだり、実際の疫学分析もしております。
具体的に今回作成したデータセットについて御説明いたします。先ほど御説明がありましたように、NDBサンプリングデータセット自体は、既に医科入院外は1%、入院に関しては10%、DPCに関しても10%、高額レセプトに関しては除外されているというふうに匿名性が高いデータではございますが、今回、さらに個人特定性を下げるために、そして公表基準を守るためにということで、傷病名コードや医薬品コード、診療行為コード、診断群分類等につきまして、既に出現頻度の低いものは匿名化されていますが、さらにサンプリングデータセット内での出現頻度が10回以下のものについてもレコード自体を削除するというような加工をいたしました。
提供を受けたデータセットは、2011年1月診療分から2015年10月診療分のサンプリングデータセットです。そのほか、赤字で示しております傷病名や診療行為、医薬品といったところのデータ加工対象を有するレコードにつきまして、出現頻度が10回以下のものを対象に加工しております。
具体的には、診療行為コードの例を挙げましたが、診療行為コードとして10回以下の出現率のコードを認めた場合は、該当のコードを有するIDのレコードを全レコードにおいて全削除としました。つまり、対象とするような出現頻度が低いデータがあった場合はそのIDごと抜いてしまって、その人がいなかったことにするというような加工をしております。同じことを診療行為コード、SYレコード等についても行っていきました。
このようなデータセットを用いて行った実習内容ですが、昨年度、2021年度に関しましては、1回目で糖尿病患者に関する集計を行って病名を持つIDを抽出し、そこから治療薬を処方させるIDを抽出することを実際にコードをたたいて実習しました。2回目に関しては、過去にサンプリングデータセットで公表されております論文等を参考にして、同様の解析をする場合にはどういうコードを書く必要があるかという実習を行っております。
どのような環境で実習しているかについて短い動画で御紹介したいと思います。
  (動画視聴)
森参考人 このような環境で実習しておりまして、先ほどお示ししたこの環境はこれ専用のブラウザーになっておりまして、直接ここからしか入れないようなセキュアな環境を構築して、NDBデータの加工データ以外の医療データも扱えるような環境でNDBデータも扱っているという状況です。
私からの御報告は以上です。本事業は4年目ということで、来年度5年目になりますが、現在も継続中で、今年度も医療情報学実習は実施しております。
以上です。
山本委員長 どうもありがとうございました。
それでは、ただいまの参考人の御説明も踏まえまして、議題3につきまして、御意見がございましたら、よろしくお願いいたします。長島先生、どうぞ。
長島委員 実際の利用を増やしたり裾野を広げるという意味で大変有効な方法だと思いますが、2点お伺いします。
まずは、ニーズの調査みたいなものはされたのでしょうか。例えばここに対するニーズが非常に多かったとか、実際に聞き取りをしてみたとか、そういうニーズの調査、あるいはどれぐらいの利用者があると想定されているのかどうか。
2点目は、これを実行するために業務負担及び費用負担が生じますが、それをどの程度と見積もっているのか、また利用する研究者側に何らかの費用負担は想定しているのか。
以上、教えてください。
山本委員長 事務局、よろしくお願いします。
坂本室長補佐 事務局でございます。ありがとうございます。
1点目の御質問でございます。ニーズ調査につきましては、昨年度の事業におきまして、NDBのユーザーを対象にニーズ調査、ヒアリング等を行っております。そういったニーズを踏まえての今回の御提案ということでございます。
2点目、費用に関しましてでございます。費用も含めまして、探索的利用環境自体の使い方、使用方法、データをどこまでダウンロード可能とするのか、またこのデータを使った上での成果物をどこまで公表可能とするのか、そういった使い方、また費用も含めた御議論は、時間を頂いて整理した上で、もう一度お諮りさせていただきたいと考えております。
山本委員長 ありがとうございました。
長島先生、よろしいですか。
長島委員 今後その辺が少し具体的になったら、また資料提供をお願いいたします。
山本委員長 ほか、御意見いかがでしょうか。堀先生、どうぞ。
堀委員 トライアルデータの利用の価値並びに探索的利用環境整備の目的の意義については理解しておりますし、この形で進めていただければと思いますが、今後の議題なのかもしれませんが、トライアルデータセットの内容によっては、実質的に、トライアルといいながらも、かなり精密なといいますか、リアルなものが入っていますので、通常の研究者がリアルデータを申請するときには非常にハードルが高いことを考えると、トライアルのものはリアルなものを縮小して抽出したようなものではなく、実際の現実とは違うデータにするなど、そういうような匿名性を確保できるような工夫をしてもいいのではないかと思います。
それから、一点、森先生に御質問ですが、来年度、事業が終わると伺ったのですが、この事業が終わった後も全く同じ内容で継続されるということの理解でよろしいでしょうか。また年度によってはやり方を変えるとか、担当の先生が替わるなどによって事業の趣旨や内容が変わることもあると思いますが、その辺を教えていただければと思います。
森参考人 ありがとうございます。
少なくともKUEP-DHIの事業に関しましては、この形態で来年度までは継続可能かと思っております。講義自体は、大学院の修士課程に設置されている講義になりますので、医療情報学実習という講義自体は今後も実施予定でして、その中でこのデータセットを引き続き使わせていただけるかどうかにつきましては、事務局、委員の先生方にお諮りして、御相談してになろうかと思いますが、学生たちはNDBに少しでも触れられる機会ということで喜んで使っておりますので、ぜひそういう機会を継続させていただければとお願いした次第です。
堀委員 ありがとうございました。
京都大学に限らず、ほかの東京とか地方でも同じような取組が普及していくといいなと個人的に思っております。
以上です。
山本委員長 ありがとうございました。
ほか、いかがでしょうか。東宮先生、どうぞ。
東宮委員 利用範囲を広げる、広く普及させるという意味での取組としては非常に価値があると思いますが、先ほど堀先生もおっしゃっていたとおり、データハンドリングについて学ぶことが主体なのか、あるいはそこから出てきた結果までも期待してのものなのかという辺りを区別しておく必要があると思います。それは先ほど事務局から話がありましたように今後議論になると思いますが、その点を十分意識して進めていただけたらと思いました。
以上です。
山本委員長 ありがとうございます。
全く架空のデータをつくるのも不可能ではない。ただ、不可能ではないのですが、何万例のデータを頭の中で考えてつくるというのはあまり現実的ではなくて、普通は現実のデータを、例えばランダムスワッピングで項目を入れ替えるとか、そういったことをすることが多いのですが、そうするとちょっと現実離れしたデータになる可能性があって、実際にトライアルで使っていただくと、とんでもない結果が出てくるということで、NDBに不慣れな方にとっての研究材料としてはあまり適さないこともあります。
一方で、皆さん方の御意見のように、万が一にも、もともとのデータに由来するデータですので、この程度の精度でよければ実際に探索研究ができてしまうという意味では、トライアルで終了してしまうような研究が出てくる可能性があり得るというふうな可能性もあって、識別性はないと私は思いますが、要するに、トライアルで終わってしまうことが起こり得るという意味では、それは確かに若干あり得ると思いますが、それをよしとするか、それをどう考えるかという問題だと思いますので、今後ともよろしく御検討をお願いいたします。
ほか、いかがでしょうか。
森先生にお聞きしたいのですが、私は、現行のサンプリングデータセットもほとんど個人特定性は考えなくていい、安全なデータセットだと考えているのですが、さらに10未満の頻度のものをレコード削除するというので、相当安全性に気を配られた話だと思いますが、やはりそういう必要性があるのでしょうか。
森参考人 今回、学生実習でデータセットをプログラム有効性検証のため使わせていただくに当たって、学生自体は、申出者、利用者として登録しておりませんので、通常の研究者の方がサンプリングデータセットを申請されていることを考えると、同じ条件で使わせていただくのはよくないかと思っておりました。そういう意味で、さらに匿名性を上げるというか、個人特定性を下げる、より安全なデータセットという形で使わせていただくようお願いしたという次第でございます。確かにサンプリングデータセットで個人に行き着くことができるかというとかなり難しいと個人的には感想は持っておりますが、今回、やはり不慣れな学生が使うということもあって、より安全性を高めて使わせていただいているという実情でございます。
山本委員長 ありがとうございました。
ほか、いかがでしょうか。
それでは、引き続き検討を進めていただくということにしたいと思います。ありがとうございました。
ここまでが公開審査になりまして、この後、個別審査になりますので、非公開になります。個別審査に移る前に10分間休憩にさせていただきたいと思います。1時49分に開始いたしますので、それまでに座席にお戻りくださいますようによろしくお願いいたします。
それでは、休憩に入ります。
  (休 憩)
山本委員長 それでは、会議を再開いたします。
個別審査に移ります。事務局より個別審査についての説明をお願いいたします。
  (非 公 開)
山本委員長 それでは、本日の議事はここまでとなります。
次回の日程につきまして、事務局から連絡をお願いいたします。
坂本室長補佐 事務局でございます。
本日は長時間にわたりまして御審査いただき、ありがとうございました。御指摘のあった部分につきましては、確認を取らせていただきまして、提供に向けた手続を進めさせていただきたいと思います。
次回の会議日程でございます。既に連絡させていただいておりますが、3月1日の予定でございます。詳細につきましては、追って御連絡させていただきます。どうもありがとうございました。
山本委員長 長時間にわたり、ありがとうございました。
それでは、以上をもちまして、第13回「匿名医療情報等の提供に関する専門委員会」を終了いたします。本日はありがとうございました。