ホーム> 政策について> 審議会・研究会等> 労働基準局が実施する検討会等> 平成24年度化学物質のリスク評価検討会(有害性評価小検討会)> 化学物質のリスク評価検討会の「第3回有害性評価小検討会」




2012年10月31日 化学物質のリスク評価検討会の「第3回有害性評価小検討会」

労働基準局安全衛生部

○日時

平成24年10月31日(水)14:00~16:00


○場所

経済産業省別館827号会議室


○議事

○大淵有害性調査機関査察官 本日は、お忙しい中御参集いただきまして、誠にありがとうございます。ただいまから平成24年度化学物質のリスク評価検討会「第3回有害性評価小検討会」を開催いたします。
 初めに、本日の出席者を御紹介させていただきたいと存じます。参考資料1に出席者名簿がありますので、参考としていただければと存じます。本日ですが、特別参集者としまして、国立医薬品食品衛生研究所の広瀬先生に加わっていただいております。後ほど御説明をお願いする予定です。
 本日の御欠席の委員は、池田先生、高田先生、宮川先生、福島先生です。
 事務局サイドですが、本日は日本バイオアッセイ研究センターの試験結果の評価を予定しておりまして、同センターの加納さん、相磯さんにも出席をお願いしております。どうぞよろしくお願い申し上げます。
 以下の進行につきましては、座長の大前先生にお願いしたいと存じます。よろしくお願い申し上げます。
○大前座長 今日は第3回目の評価小委員会ですが、よろしくお願いいたします。最初に、資料の確認をお願いいたします。
○大淵有害性調査機関査察官 議事次第の裏側のページに配付資料一覧がありますので、これに沿って確認をお願いいたします。
 資料1「発がん性等に関する構造活性相関について」、広瀬先生の資料です。資料2「発がん性のスクリーニングの迅速化-遺伝毒性・発がん性包括試験法-」、西川先生の資料です。資料3-1「3-アミノフェノールの経口投与(混水)によるがん原性試験結果」、これに関係して資料3-2、資料3-3は、それぞれのもう少し詳しい資料で、ラット、マウスのものですが、こちらについては委員、事務局のみの配付となっています。資料4「第2回小検討会における主な意見等」、前回の議論をまとめたものです。資料5「国が行う長期発がん性試験の試験方法について」、こちらは前回の議論を踏まえて修正したものです。資料6「発がん性のスクリーニングの検討において想定される論点(案)」、こちらも前回の議論を踏まえてのものです。資料7「今後の予定」です。参考資料1は「参集者名簿」、参考資料2「国が実施するがん原性試験について」、こちらは第1回、第2回にもお配りしている資料です。配付資料は以上です。
○大前座長 議事に入ります。「遺伝毒性・発がん性等に関する構造活性相関について」、広瀬先生から資料の御説明をお願いいたします。
○広瀬委員 国立医薬品食品衛生研究所の総合評価研究室の広瀬です。本日は発がん性の評価の補助的ツールだと思うのですが、構造活性相関モデルについての全体的な概要について説明してくださいということでしたので、それについて簡単な資料を作りましたので説明させていただきます。
 ただ、正直言いまして、私は発がん性に関してQSAR Modelを直接使っているわけではなくて、主に変異原性、あとは反復毒性も多少はやっているのですが、それは専ら研究開発において新しい構造アラートをラットのでーたから開発するとかというところでやっているのです。ただ、使っているソフトの中でも、もちろん発がん性を予測するモデルも入っていますので、そういう観点から説明させていただければと思っています。
 更に、今回まとめた資料の基になっているものがありまして、ヨーロッパのJoint Research Centreで、発がん性の国際的に汎用されているモデルについて、レビューされた文書があり、日本語のタイトルの下に英語のタイトルがありますが、それに詳しく説明されています。今日はそのエッセンスについて、資料自体は殆ど英文ですがエッセンスだけを抜き出したつもりですので、もっと詳細な情報を得たい場合は、ここに当たれば包括的なデータ、あるいは個々のQSAR Modelにはどういうものが使われているかということにたどり着けることになっていますので、基の資料を御覧いただければ、更に詳しく理解できると思います。
 まず、構造活性相関についての話をする前に、そのモデルを作るには、基になるデータが必要でして、そういうものをどのようなところから使っているか。皆さん御存じだと思うのですが、1ページの下、スライド番号2ですが、この中でよく使われているのは上から2つ目のCPDBというデータです。これは6540の物質についてのchronic、発がん性の物質のデータでして、long-termになると1500程になりますが、6500はその遺伝毒性情報も入っているとう意味です。大体1547chemicalsの発がん性データの結果がサマライズされて入っているデータベースで、この中には例えばTD50と言われる、各試験の50%発がん用量というのも数値化されてデータベースになっていますので、そういったものをいちばん包括的に持っているデータベースではないかと思っています。
 それ以外にも、いちばん上のもは6500化合物は変異原性だけに特化したデータベースで、割と新しいのですが、これも大きなデータベースと最近は認識されています。
 上から3つ目は、デンマークの環境省で作っているデータベースで、それは実験の結果というよりは、MultiCaseと言われるQSAR Modelで、あとで少し説明しますが、それで予測した結果だけを16万物質について公開しているというものになっていまして、これは実験結果というよりはQSARでやった結果というもので、公開されているとなっています。
 そこから下については、IARC、NTP、これは特にデータベースというよりは、そういった結果がwebで公開されているといったような扱いになります。TOXNETはパブメドなどと同様インターネットで検索できるようになっていますが、この中にもそういった変異原性のレポートは入っています。この表はどういうところからデータを取り出して作っているかという、データベースはこういうところでいろいろなものが作られているといった紹介になります。
 その次の資料に、簡単ですが、このあとで説明するところでキーになると思われる、これもホームページから取ってきているので、基は製品技術基盤機構の構造活性相関の用語集が出ていましたので、そこから抜き出してきただけなのですが、QSARのモデルを検証するときに、どういった用語を知っているかを簡単に説明させていただきます。
 training setとexternal validation、これはtest setと言うときもあるのですが、QSARのモデルを作るときに、最初に実験結果があったというもので学習させたり、あるいは知識ベースで構造アラートを抜き出したりするのですが、そういったセットを用いてもでるを作って、そのできたQSARの精度を見るときには、training setではない外部の実験結果のセットを使って検証するというのが、いちばん適切な「検証方法」というように使われていると思います。
 ただ、そういう意味で、どのセットを使って精度を検証したかというのが重要になりますので、そういったときに使われる用語が、こういった用語です。
 次にdescriptorです。これは主に物性に特化した用語になりますが、構造活性相関でも、構造式のアラートを取るタイプと、あとで簡単に説明しますが、物理化学的な乗数であるとか、そういった因子でプログラムを構築するときに必要な個々の物理量、あるいは項目のことをdescriptorと言っています。
 expert systemというのは、予測手法の一種で、予測モデル数式があるのではなくて実際にはルールベースで、こういうケースにはどういうアラートがあるとか、そういった判断システムをexpert systemと言います。
 その次に、applicability domainというのが、最近はQSAR Modelの中で注目されていまして、これはどういったことかと申しますと、構造活性相関モデルはtraning set、ある化合物群を知識ベースあるいは学習の基としてモデルを作るのですが、外挿できることもあるのですが、基本的に過去の経験を活かして、未知のものを予測するというシステムである以上、全然構造が飛び離れたところから持ってきてしまうと、予測できなくなるということが当然想定されるわけです。そういったときに、ある意味では逃げのような感じもするのですが、あるQSAR Modelがあると、applicability domainはどの程度ですかと。要するに、どの化合物の範囲までそのQSAR Modelは適応して信頼性のおける結果が出ますかという範囲を、ある程度定義して使うべきだと、OECDの原則ではそういうことになっていますので、そういったときに最近使われる用語となっています。
 ただ、これもあとで説明しますが、必ずしも定義できる場合とできない場合がありまして、この辺の定義の領域としては、実は曖昧なところが残っています。
 下の2つは、sensitivity、sspecificity、これは精度を検証するときの簡易的なパラメーターですが、sensitivityというのは、陽性物質を陽性として判定できた、発がん性で陽性の物質だけをそのモデルに加えたときに、本当に100%陽性にならなければいけないのですが、陰性と判定してしまった部分が落ちてしまうのを除いた割合です。その逆の、陰性物質を陰性として当てた確率のことをspecificityと呼んでいます。
 ここで書き漏れたのですが、concordanceというのがありまして、これは全体の精度を表しておりまして、これは適応した化合物の中で、陽性を陽性、陰性を陰性と表した率、簡単にいうと上の特異性とsensitivityとをある程度平均した値になります。もっとほかの精度の表し方もあるのですが、いちばん簡便にQSARのモデルの精度を判別するためには、こういった数字で判別しているということを簡単に御説明させていただきます。
 QSAR Modelの話に入る前に、昔から教科書レベルでもそうですが、アゾ化合物構造があれば発がん性があるとか、いろいろな部分構造をルールとして適応する、ソフトウエアのようなモデルを作らなくても、ルールだけを作ればある程度予測できるという論文なりは、報告されております。そういった意味で、有名なところでは、1985年にAshbyらが開発したルールで、その後にAshbyやTennatらで作った、19個の部分構造のアラートというもので予測するというのは、そこそこの精度で。精度といっても、基本的には。
 あとで説明しようかと思っていたのですが、発がん性試験を行う物質は限られていて、しかも公開されているというのは限られていまして、先ほどデータベースで紹介しましたように、大体1,500ぐらい、いまはもう少し多いのかもしれませんが、その程度が利用できる学習セットになるわけです。それをすべて使って構造アラートを作ると、先ほど言いましたように、外部セットというのは基本的になくなってしまうわけです。つまり公表で知られたもので全部使用してルールを作ってしまうと、それを検証するための外部setというのは、新たに実験するまで検証できないということが起きます。その結果アラートを作るだけでも、予測精度としてはかなりのところが出てしまうという、逆説的というか、結果論的にはそういうことになります。そういう意味で、構造アラート(SA)というのは、割と重要な位置を示していると考えられています。
 そういったルールは2005年以来も、ときおり開発されてきているのですが、これはヨーロッパのレビューということもありますが、その中でも2008年のBenigin and Bossaというイタリアのグループなのですが、彼らが作ったのは、いま33のアラートが構築されていますが、割と包括的だと考えられています。これは最後に説明するOECD Tool boxと言われるシステムの中に取り込まれています。
 もちろん過去の経験からアラートを作りますので、基本的にはAsbyらの構造アラートとのオーバーラップがありまして、5番目の図は、いくつか代表的なアラートの、部分構造のアラートのオーバーラップを示していまして、これは見ていただくと分かるのですが、最近のイタリアのグループで作ったのが、割と包括的に作っているということを単に表しています。細かいレベルでは少しずつずれるので、必ず全部を包括したルールはできませんが、こういったルールベースの状況になっています。
 こういうルールベースを基に、基本的には構造活性相関のモデルが作られているわけですが、一口に構造活性モデルと言っても、6番に示す表にありますが、大きく分けると2つなのですが、分類として3つのシステムがあります。1つはルールベースと言われていまして、いま上で示したルールを、更に少し部分構造で、こういった置換基があった場合はどのくらいの確率でとかいうものを加えながら、人が判定するのではなくて、ソフトウエアがある程度確率的なものを判定して作っていくというタイプのルールベースのものがあります。これにはあとで説明するDEREK、HazardExpert、OECD Tool boxといったモデルが、このグループに含まれていまして、先ほどから説明していますように、明らかに過去の公表文献情報の発がんのモデルが陽性だったものについて、陽性のルールを作ってサポートを作っていますので、基本的には陰性、陽性の判定にはちゃんとしたメカニズムのバックグラウンドがあるといった利点はあります。ただ、基本的にはapplicability domainがどこまでだというのが、このタイプの場合は難しくて、結局ルールのない全く未知の物質については、少し精度が落ちてしまうといった欠点になってしまいます。
 それと対極的に、統計的なアプローチと言われる手法がありまして、これは部分構造というよりも、それも一部使うのですが、物理学的、例えば電子密度、logPといった、物理化学的な因子だけで予測式を作って、実際の動物実験の結果に当てはめて、いちばん適合する式を作り出して予測するというモデルがあります。これは統計的に、実際に物理化学的な性質のいくつかの因子の組み合わせと実験結果を併せて、精度を上げて作っていくので、精度自体は上がっていくのですが、どういう理屈で物理化学的因子と発がん性が結び付いているかを説明する情報は持っていません。
 ただ、逆に、ある程度物理化学的特性での推測がありますので、要するにapplicability domainが広いというか、未知のデータも精度は低いのですが、ある程度対応できる。ルールベースと違ってルールにないような構造がきたときにも、ある程度対応できるというような特徴もあります。
 ハイブリッドというのは、上2つを組み合わせてやるというシステムで、実はこれには余り知られたモデルはないのですが、OASISと言われるブルガリアのブルガス大学で作っているTIMESといったソフトとか、あとはソフトウエアになっていないのですが、Purdy modeといった論文での知見があります。
 そのあとは、各モデルについて簡単に、どのぐらいの精度、どういった特徴があるかをまとめたのが、7番と8番のスライドになります。7番は先ほど示したように、ルールベースのソフトで、シーザーというのはCAESARと書きますが、そういうヨーロッパのグループで作ったソフトウエアです。CAESARは統計的アプローチのほうなので、これは例外になります。記載場所を間違えましたが、これは統計のモデルで、実際にフィッティングしてモデルを作ったモデルで、資料に間違いが多くてすみませんが、さらに「92%(test set)」というのは、「92%(training set)」で、83%が+(test set)」になります。学習に使っていた以外データセットを使った検証でも、例えば、ある発がん性の分かった実験のデータベースがあったときに、一部をわざと統計のモデルを作るのに使わないで、横に置いておいて、それ以外の物質でモデルを作って、あとで横に置いておいたデータセットに対して検証するという検証の手法もあります。
 理想的には、traning setでモデルを作って、100%になるはずなのですが、物理学的技術だけで、traning setといえども完全に当てるというのは難しくて、それが92%ぐらいで、実際にそれに使わなかった化合物のデータベースに当てると、それが80%ぐらいに下がるという話になります。
 このCAESARのプログラムは別のモデル式も使うことができて、そちらでは90%以上のtraning setの精度が、test setだと60%~70%まで落ちてしまうといったことが起きています。
 これは8に書いてあるものと同じ種類のソフトです。順番が逆になりましたが、ルールベースのソフトでやるとDEREK、Toxtree、HazardExpertというのが知られています。こちらになると、これはtraning setを部分的に分けて検証した解析はないのですが、DEREKは、carcinogenicityは61のアラートが、実際には入っています。それに対して、sensitivity、先ほど言いました陽性物質を陽性と当てる確率は70%ぐらいで、これは60の農薬に対してこの場合は外部検証になるのですが、70%ぐらいの精度になる。Toxtreeも同じような精度というところで、HazardExpertになると少し低い例もありますが、外部になると50~70%ぐらいにしかならないというのが、ルールベースの特徴ではあるかと思います。
 8番目のスライドは、CAESARもここの分類に入るのですが、Lazar、MDL QSAR、MultiCase、TOPKATといったものについて、それぞれ精度が出ています。高い場合は90%、80%といった精度が出ているのですが、これも条件を最適化したり、もともとのtraning setから一部を除いて検証するといった、Lazarの2番目にも書かれていますが、Leave-one-outというaccuracyの検証の方法になります。先ほどから離しているようにtraning setが100個あるとしたら、20だけを取り出して、80でルールを作って20の精度を当てるというのを順番に化学物質を入れ替えながら作って、精度を試すというやり方でするのですが、ある意味で、traning setだけで評価しているのを少し外部的に見せかけたような判定の仕方です。そのような仕方も含めて高い値が出ているのですが、本当に全然違うセットを持ってくると、例えばTOPKATのように、40~75と、実際に50を割るようなsensitivityになったりする場合もあります。ルールベースも、全然違う化合物を加えた場合、7番目のいちばん下にありますが、HazardExpertだとsensitivityが30%に落ちてしまうという話もあります。
 こちらの話を先にしてしまったのですが、外部のモデルを使って検証していくと、NTPの44chemicalsについて、いくつかのモデルを見たところ、大体overallの精度というのは、50~60%ぐらいです。CPDBを使った場合も、高くて70%ぐらいという精度が大まかなところかなと考えることができます。
 ただ、545の医薬品に対して検証した3番目の比較ですが、これはDEREKとかMultiCaseのperformanceとin vitroのgenotoxicモデルでも予測するというのをperformanceを比較したところ、結果としてですが、in vitroの予測数よりもQSARのほうが若干高いという話もなります。これも発がん性の判定とその手法のことをよくよく検討すれば、vitroやvivoのモデルをたくさん検討して、最終的に発がん性の判定をしている評価結果としてのデータベースと、その発がん性の判定に対してQSAR Modelを作成しているわけですから、vitroのモデルの結果が得られた時点では必ずしもすべてが発がん性と一致していないは当然であることを考慮すると、QSAR Modelのほうがあとから開発されている分、精度が上がっているのだと見ると、頷ける結果かなと考えられます。
 もう1つは、低いと言われているQSARのモデルですが、最後にBattery approachと言われる手法がありまして、これはいくつかのQSAR Modelを組合せすることによって、精度を上げようといったアプローチが、最近開発されています。これはsensitivityが85%ぐらいまで上げることができるといったもので、これは発がん性に対してなのですが、手前味噌になりますが、10番目のスライドは、mutagenicityの組合せなのですが、我々のほうもこういった組合せのモデルを検討していまして、ある程度の成果を得ているということを紹介させていただきます。
 いくつかの組合せの使い方がありまして、分子量で最初にフィルタリングを掛けるということを系統樹を作っているのですが、左側のものを見ると、我々のほうはMultiCaseとDEREKと、そしてAworksというソフトは紹介しませんでしたが、これはTOPKATに似たソフトで、富士通で開発しているソフトで、研究の過程でコラボレーションのしやすいメーカーを選んだという結果でこのようになっていますが、この少しずつタイプの違うQSAR Modelを3つ組み合わせまして、左側のモデルは、2つ以上が陽性だったら、陽性にしよう、2つ以上が陰性だったら陰性にしようという判断を作って検証し他結果です。その結果は左下にありますが、sensitivityは73%で、それほどまだ高くないかもしれませんが、単独に比べれば少し上がっています。concordanceで85%で、applicabilityというのは、QSAR Modelは少しずつ特徴がありまして、例えばMultiCaseであれば、金属を含んだ化合物は判定できないとか、少しずつ対象とできない化合物がいくらか存在しますので、その影響を少し受けて、95%となっていますが、おおむねほとんどの物質について、判定ができる。その代わりそれほど精度は高くないという判断手法になります。一方委、右下の判断は、3つとも陽性だったら陽性に判定して、3つとも陰性だったら陰性に判定するものです。それ以外のケース、2つ陽性、2つ陰性といった場合は、判断しないといったGrayというのを作ります。その結果、当然ですが、positiveになった物質のsensitivityは87%ぐらいで、最終的なconcordanceも90%ぐらいに上げることができます。
 ただ、灰色の部分、要するに判定できないという物質を作ったがための結果でして、applicabilityは50%となっていますが、半分の物質はGrayにしてしまっています。しかし、半分の物質について、こういった高い一致率のものを作ることができる。これはQSAR Modelをどういった使い方をするかによって、灰色が存在してもいい場合、たとえば優先順位を付けるような使い方とか、そういったときには有用ではないかとは考えているところです。
 11番目は、少し特殊なタイプのQSARについて簡単に説明しものです。OASISについては先ほどハイブリッドと言いましたが、ルールベースと統計学的手法をある程度組み合わせているのに加えて、このモデルはmetabolismのsimulatorも中に持っていまして、それで少し精度を上げているといった特徴があります。2番目のOncologicというのはEPAが開発した発がん性のexpert systemなのですが、これはソフトの使い方が、単純に構造式を入れて結果が出るというものではなくて、一つひとつ質問が出てきて、それに対して化学物質にある程度詳しい、expertが判断して、結果を入れてやらないと、最終的な結果にたどり着けないといった、expert judgeの補助システムという位置づけで作られているソフトです。そういう意味では、automaticにはできないといった欠点がありますが、精度は高いようです。ただし、精度はexpertの知識に左右されるところがあります。
 最後に紹介したいのは、OECD Tool boxで、先ほどOECD Tool boxはルールベースの1つとして説明しましたが、実はOECD Tool box自体はQSAR ソフトではなくて、categoryを予測し、構築するためのデータベースツールです。category approachというのはOECDで、既存化学物質を、OECD加盟国であれば1カ国1,000トン以上つくっている4,000ぐらいの物質を評価していこうといったプログラムの中で、いくつかの物質はまとめて評価していこうといった動きの中で、どういったまとめ方ができるかについて、そういったアプローチを補助するツールとして開発されたソフトです。
 category approachについては、簡単に下に書いてありますが、類似の化合物についてはEndpointをある程度類推して、あるいはRead-acrossしていこうという主旨で、たとえばいくつかのデータ pointがあったら、4つのうち3つあったら、その中の1つは内挿あるいは外挿して、結果を評価していくといったアプローチです。
 OECD Tool boxの見掛けについて簡単に示したのが、13のスライドになります。なかなか複雑なシステムではあるのですが、この中にprofilerというのが入っていまして、いくつかのルールで、これは構造だけではなくて、既に反復特性、刺激性、感作性、世界中のいろいろなデータベースが寄贈されて、この中に入ってきているというシステムです。
 このシステムはOECDだけではなくて、欧州の化学品庁のECHAが共同で出資して、開発しているソフトウエアで、その中に入っているデータベースは14番に羅列しておりますが、アメリカのEPAであるとか、オランダのRIVM、日本も既存点検の結果、あるいはドイツからのデータとか、実にさまざまな国からの毒性のEendpointを全部この中にデータベースとして入れていまして、その中から構造だけではなくて、物性あるいは毒性の特性からでもcategory化して、カテゴリーを作っていこうという、QSAR systemも更に包括的に合わせて、category評価をしていこうといったツールで、この表ではversion2.1の説明となっていますが、version3がこの11月に出てきて、更に情報量もパワーアップしたシステムになるようです。
○大前座長 構造活性相関のいろいろな種類、あるいは特徴についてお話をいただきましたが、御質問、御意見はいかがでしょうか。
○津田委員 素人の質問ですが、sensitivityというのは的中率とはまた違うのですか。
○広瀬委員 同じ意味だと思います。陽性物質を陽性として当てた率です。
○津田委員 そうすると、specificityというのは、普通は裏側になっているということで、93%というと、片側が7%になると理解していたのですが、違うのですか。
○広瀬委員 陰性物質を陰性として当てたものです。陽性物質を陰性として当てたら、negativeで、それはspecificityではないです。
○津田委員 陰性物質を当てる率ですか、分かりました。
○広瀬委員 それをspecificityと言います。
○西川委員 いろいろなQSARのツールがあって、それぞれ特色があるということですが、どのツールがAmesにマッチしているとか、染色体異常はどれだとか、そういう情報というのはあるのですか。
○広瀬委員 ときどき変異原性のデータの紹介もありましたが、基本的には発がん性を予測する精度で、各ソフトウエアは発がん性の変異原性の予測というのがあって、更に変異原性でも染色体だけを予測するという、細かいのもあります。
○西川委員 遺伝毒性試験成績とのsensitivity、specificityを数値で表していたのですが、それは遺伝毒性の総合成績なのか、あるいはAmes単独の成績なのか、そのような情報はあるのですか。
○広瀬委員 それはソフトによって違います。
○西川委員 ですから、Ames試験の予測に最も適切なツールはどれですか。
○広瀬委員 先ほど説明しましたが、traning seで何を使うかによって結果は違ってくるのです。例えばCAESARは最初は農薬をセットで使ったので、農薬に対しては的中率は高いのですが、それを別のものに使うと、全然落ちてしまうのです。それぞれのシステムが何を基に作ったかというので結果が違います。MultiCaseの場合は、特に自分でデータを入れて自分で。
○西川委員 検証は、どの試験に対して合致していたとか、そういうことで判定しているわけではないですか。ですから、そこが分からないとどういう使い方をしたらいいかがよく分からないですよね。
○吉田委員 スライド10について、先生方がAmesの試験を組み合わせて使うと、非常に精度が上がったということで、例えばこういうことは発がん性についても言えるということですよね。
○広瀬委員 それを説明したのは我々のデータではなくて、9番のスライドのBattery approachのMatthewsらの論文は、carcinogenicityについて説明しており、そのBattery approachをやっています。我々は真似をしたわけではないのですが、変異原性をendopointとしてやって、同じような結果が出たという話で。
 どのシステムがどのモデルに最もよいかというのは、基本的には、私としてはないと思っていまして、どの化合物をバックにしたかによって結果が全然違ってきます。そういう意味で、何を国際的に使ったらいいかというのは、OECDにQSARの原則がありまして、特に何パーセント以上の精度だったらいいという基準ではなくて、どういった作り方で、どういう外部データを使ったときの検出率が、何パーセントぐらいというようなデータ、もちろん50%というときは、どうかは知りませんが、それらの確認手段が適正で透明性があれば、一応QSARとして国際的に認められるようなところです。いま判定にどこまで行政的に使っているかと言われると、難しいところがありますが。
 少なくとも、ここで紹介したようなソフトは、国際的には認知度が高くて、使用頻度が高いもので、ICHでも少し議論になっているかもしれませんが、どれか1つを使えばいいという、そのときにどういう背景で作ったモデルであるというのを一緒に説明して、やればいいというような方向になって、どのソフトがいいという特定はauthorityはしていないです。ただ、FDAやデンマークEPAはMultiCaseを、使っていますし、あるいは製薬会社は割とDEREKというソフトをわりと使っているようです。開発会社の背景的なところがあって、そのソフトを好んで使っているということで実際は仕様されているところがあります。
○櫻井委員 9と10の辺りで、特に10番目のスライドで、右側のモデルはGray zoneが多くなるけれども、それを除くとsensitivityもspecificityも高いですよね。スクリーニングのような目的に適しているかもしれないとおっしゃいましたが、まさに、例えば我々がやろうとしているのはスクリーニングなわけですよね。
 もし、確実性ということではなくて定量的な、この場合はmutagenicityですが、それの高いものがGrayではなくて、Grayではない部分に入ってくる可能性は高くなりますか。
○広瀬委員 高くなります。
○櫻井委員 そう考えると、スクリーニングとしては確かにこういう方法は優れているという感じがするのですが、そうしますと例えば発がんだったら、9番目の上のMatthewsなどが提案しているBattery approachが適切なのかなとも思ってしまうのですが、いかがでしょうか。
○広瀬委員 我々もそういった目的で、こういったものを開発しているので。ただ、Matthewsらの方法は5個ぐらいは使ってやっていますが、これは5個全部を組み合わせるのではなくて、このうちの任意の2つのどれを取っても、大体同じような結果だったということです。だから、それぞれのモデルは少し特徴は違いますが、少なくとも2つを合わせると、大体高くなるのではないかと。
○櫻井委員 MatthewsはGray zoneのあるようなタイプではないのですか。
○広瀬委員 これも確認はしていませんが、Gray zoneを作っているはずです。そうしないと、このぐらいは上がらないと思われます。
○櫻井委員 そうすると、sensitivityは高いですけれども、specificityは余り高くないですね。
○広瀬委員 そうですね。すみません、この論文の中身まできちんと詳細に精査していないので、低いspecificityの理由はちょっと。この値はGrayをspecificityに入れているから低くなっているのかと思います。恐らくですが。
○櫻井委員 Grayを計算に入れてしまっているのですね。
○広瀬委員 そうです。Grayを除けば高くなると思われます。
○櫻井委員 もう1つ10番目のデータで、この場合はmoleculer weightは3,000を切っていますよね。
○広瀬委員 はい。
○櫻井委員 ただ、我々の労働環境では、労働者のばく露という場合、比較的分子量の小さいものが多いと思うのです。そうすると、このように3,000で切るというのは余り意味がないと思います。もっと低いところで切るというような、これは3,000以上になるとEpoxideだけ考えればいいという割り切りなのですね。
○広瀬委員 そうです。実は説明が抜けましたが、化審法をターゲットにして我々は開発したので、化審法にはポリマーも結構入っているので、それをとりあえず例外にして、とりあえずそこでフィルターを掛けるという意味だけで、実際にはこれはなくても。
○櫻井委員 構造アラートの中でEpoxideが圧倒的に強いということですね。3,000を超えたらそれだけ考えればいいわけですから。
○広瀬委員 強いというか、実際の化審法の評価でも、Epoxideのパーセンテージが大きい場合は試験をしてくださいというcriteriaを作っていますね。
○大前座長 そのほかにいかがですか。
○清水委員 いまの10番目のスライドですが、Mcase、DEREK、AWorksを組み合わせているわけですが、このそれぞれはアップデートはされているのですか。
○広瀬委員 それぞれアップデートされています。
○清水委員 かなり頻度は高いですか。
○広瀬委員 DEREKは毎年やっていますし、MultiCaseはそれほどではないのですが、ただMultiCaseの場合は、実はデータベース自体を自分たちで入れ込んで、in house systemと言いますか、実際モデル式というのは使っているところによって全部違うのですね。使用しているユーザでのtest setで自動的にルールを作るというシステムになっていまして。ADMEWorksも年に1回ぐらいは共同研究によるUPDATEはしていますね。
○大前座長 今日お話いただいた範囲では、例えば発がんですと、先ほどのマウス用のモデルを使って新規の物質を、この物質は発がん実験をやるかどうかを選ぶという場合には、結構使われるだろうというような判断をしているとおっしゃられましたね。
○広瀬委員 そうだと私は。
○大前座長 この場合はsensitivityが随分高いので。
○広瀬委員 それは優先の度合いを、Grayをどのように扱ったかという。
○大前座長 その問題は分かります。
○江馬委員 スライド10の右側のsensitivityとか、specificityの100%から欠けた部分というのは、Gray zoneに入っているのですか、そうとも限らないのですか。sensitivityが94.9になっているのですが。
○広瀬委員 これは99%の陰性物質を陰性として94%で、欠けた部分は。
○江馬委員 間違ったのですか、Grayではなくて5%は間違ったということですか。
○大前座長 よろしゅうございますか。そのほかなければ、もう1つありますので、そちらに移りたいと思います。西川先生、よろしくお願いします。
○西川委員 資料2を御覧ください。私どもはレポーター遺伝子を導入したラット・マウスを使って、1つの試験で遺伝毒性と発がん性の両方が見られないかという試験法の開発を試みております。1ページの下のほうにありますように、がん原性試験とAmes試験の一致性についての論文が、2005年にKirklandから報告されております。ラットあるいはマウスの長期がん原性試験で、発がん性がないと判定された176物質のうち、Ames試験が陽性であったものが約25%でした。これは遺伝毒性非発がん物質ということになります。一方、げっ歯類の長期試験でがん原性が陽性であると判定された541物質のうち、Ames試験が陽性であったものが約60%、陰性であったものが約40%を少し超えるぐらいで、Ames試験が陰性でがん原性が陽性なものは、通常、非遺伝毒性発がん物質と呼ばれております。
 このように、Ames試験とがん原性は必ずしも一致性がよくないわけです。その理由の1つは、当然ながら非遺伝毒性発がん物質の存在を認めるかどうかです。遺伝毒性の専門の方は、遺伝毒性の試験で全て発がん性を検出できないといけないとおっしゃる方もいるのですけれども、病理のほうから見ると、非遺伝毒性発がん物質は必ず存在すると理解しております。
 もう1つ一致しない理由として、Amesはバクテリアを用いた試験であって、がん原性試験はラットあるいはマウスに2年ほどの長期間ばく露させた結果です。要するに試験が全く違い、同じ土俵の上で比較されるべきものではないということです。ここで問題になるのが発がん物質として結論づけられたものが、非遺伝毒性物質なのか遺伝毒性物質なのかによって、閾値があるかないかの判定にかかわってくるわけで、そういう意味で発がん性に遺伝毒性があるかないかというのは、非常に重要なことです。
 いま申し上げた点を分かりやすくとまではいかないかもしれませんが、もう少し詳しく書いたのが、2ページの上段の図です。遺伝毒性試験というのは、例えば医薬品ですとコアバッテリーの試験として、Ames試験、染色体異常試験、マウス小核試験が必要とされます。これらを総合的に見て遺伝毒性があるかないか、つまり生体にとって懸念されるような遺伝毒性があるかないかという判定をするわけです。
 一方、がん原性試験はラット・マウスの長期試験によって、発がん性の有無を調べるわけです。例えば、マウス小核試験であっても通常は単回投与、せいぜい1週間程度の短期の反復投与です。その検査対象となる細胞も末梢血・骨髄です。そもそも小核試験というのは染色体異常を見る試験であって、Amesのような遺伝子の異常を見るものではありません。通常in vivoの試験であることからマウスの小核試験を最重要視することで、総合的に遺伝毒性の有無を判定していくのですけれども、その辺りにも問題があります。また、がん原性試験についてはマウス小核と比べると、必ず反復投与を行って全身の臓器を検索するので、いちばん下に書いてありますように、遺伝毒性試験と発がん性試験は全く別の試験ということになります。仮にこの絵にありますように、遺伝毒性がなくて発がん性がある物質は通常非遺伝毒性発がん物質、したがって閾値ありという評価になるのですが、本当に発がん性に遺伝毒性が関与していないかは実は分からないわけです。
 その下の図を見ますと、今度は逆に遺伝毒性が偽陽性あるいは陽性の場合、医薬品であっても先に開発を進める場合もあるわけです。がん原性試験で陽性となった場合、ここで本当に遺伝毒性発がん物質と言っていいかどうかを見極めるために、メカニズム試験が行われます。このメカニズム試験の1つとして、レポーター遺伝子の導入モデルが使われることが、最近よく報告されるようになってきております。
 3ページの上にありますように、遺伝毒性を検出するためのレポーター遺伝子を導入したいくつかの動物モデルが、2011年にOECDによってガイドラインとして認められております。Muta MouseとかBig Blue mouse及びratとともに、私どもがよく使っているgpt deltaのラットあるいはマウスというのがあります。これを極めて単純な発想で、通常の亜急性毒性試験からがん原性試験に用いる野生型のラット・マウスの代わりに、レポーター遺伝子を導入したラット・マウスを使って、4週間から13週間程度の亜急性毒性試験に応用して、そのことによって通常の反復投与毒性の試験から得られるデータに加えて、標的臓器における遺伝毒性、更に、特に肝臓等に標的性が疑われるような場合には、肝臓の前がん病変として知られているGST-Pの陽性細胞巣の数をカウントすることによって、肝発がん性のスクリーニングができるという構想のもとに試験を開発しています。
 3ページの下に、gpt deltaのassayのスキームが書いてあります。動物に被験物質を投与して、導入したレポーター遺伝子をphageに回収して、それを2種類の大腸菌に感染させます。2種類のassayによって、1つはここに「6-Tg mutant colony」と書いてあるのですけれども、これは点突然変異を検出するためのものです。それから「Spi- mutant plaque」と書いてあるのが、もう少し大きな変異である欠失変異を検出できるassayです。この試験系の特徴はBig BlueやMutaとは違って、点突然変異以外に欠失変異を検出できるという利点があります。導入してある遺伝子としては、大腸菌のgptとphageに存在するred/gamという遺伝子をまとめて導入してあるのですけれども、細かいことは国立衛研の変異遺伝部の前部長である、能美博士が書かれた論文を御覧になっていただければと思います。
 あと、私どもでやった試験の結果をいくつか御紹介します。4ページの上のほうに表があります。IQというのは食べ物の焦げに入っている発がん物質、ヘテロサイクリックアミンの1つです。「NPYR」と書いてあるのがN-nitrosopyrrolidineで、これも環境中、タバコの煙の中等に含まれる汚染物質で、肝発がん性が知られております。DEHPはフタル酸エステルの1つで、肝発がん性はあるのですけれども、GST-Pは陽性とならない肝細胞巣を作ります。APAPというのは、アセトアミノフェンでnegative controlです。それを13週間gpt deltaラットに投与して、GST-P陽性の肝細胞巣をカウントしたものです。予想どおりIQとNPYR投与群は、対照群に比較してGST-Pの数及び面積ともに有意に増加しております。DEHPではGST-P陽性巣は増加せず、アセトアミノフェンではcontrolと差がないという結果が得られております。
 この試験で得られた肝臓を使って、gptの変異頻度を解析したのがその下の図です。これも予想どおり、IQとNPYRで変異頻度の有意な、顕著な増加が認められております。DEHPとアセトアミノフェンでは、controlと差がないという結果が得られています。
 gptの変異を起こしたコロニーを直接シークェンス法で解析したのが、5ページの上の図です。IQではG:C→T:Aのトランスバージョンが顕著に増えております。このGC:→T:Aのトランスバージョンは、IQのDNA付加体から起こると想定されるものです。NPYRについては全く異なる変異のスペクトラムを示し、A:T→G:Cという変異がドミナントでありました。これについても一応付加体等から想定される変異であって、このように発がん物質によって全く異なるスペクトラムを検出し得たということになります。あと、DEHPとアセトアミノフェンについては、ほぼControlと同じようなスペクトラムを示しました。
 これは2つ目の試験です。5ページの下にありますように、食品添加物の1つである臭素酸カリを13週間、gpt deltaラットに投与してみたものです。この物質は腎臓に発がん性があることが長期の試験によって知られております。右側のgpt変異頻度については、有意な増加はなかったのですが、その下のSpi-についてはいちばん高い用量の500ppmの群で有意な増加が見られました。OGG1というのは、その下の8-oxodGの修復酵素です。8-oxodGについては用量相関性に上がっているような傾向が見られますので、何らかの酸化的ストレスが関与している可能性も示唆されます。
 6ページの図ですが、今度は同じく臭素酸化カリの試験を、Time courseを追ってみたものです。投与量は全て500ppmです。Spi-については9週以降、有意な増加が認められます。gptについては有意な増加は認められておりません。ここで1つ言えるのは、OECDではこういうレポーター遺伝子を使った遺伝毒性の投与期間として、4週間、28日間を推奨しているのですが、このケースの場合は9週以降にしか変異が上昇していないので、それでは検出できない可能性もあります。
 6ページの下はまた別の試験です。マイコトキシンの1つであるオクラトキシンAを、gpt deltaラットに投与した際の結果です。オクラトキシンAというのは、バルカン腎症の原因としても疑われているものであって、ラット・マウスに腎発がん性を誘発します。遺伝毒性については陽性・陰性の両方の成績があって、この段階では結論が着いていませんでした。最初、この図にはないのですが、腎臓を丸ごとassayにかけたところ、controlと有意な差はなかったのです。ただ腎臓の病変を見ますと、髄質外帯に特異的にカリオメガリー等の顕著な所見が出ておりましたので、このケースでは髄質外帯だけを取り出してassayにかけ、cortex(皮質)と比較したわけです。そうしますと右の図にありますように、髄質外帯の部分でオクラトキシンAによって有意なSpi-の変異が上昇しました。したがって、部位特異的な変化についても、解析ができるというメリットがあることになります。
 7ページには、更にFuranをgpt deltaラットに用いた試験とgpt delta マウスに用いた試験について、その要約を示しております。Furanというのは香料として使用されるFuran誘導体の基本骨格の1つで、げっ歯類において肝発がん性、ラットでは肝細胞がんと肝胆管がん、マウスでは肝細胞がんが発生することが知られており、IARCではグループ2Bとなっております。これをgpt deltaを使ったラットの13週間の試験で調べてみますと、真ん中の枠の中に書いてありますように、肝臓におけるgpt及びSpi-の変異は陰性でした。ただし骨髄の小核については、陽性という結果が出ております。この試験系ですと通常の反復投与に加えて、小核試験もできます。
 それから、肝臓のGST-Pの免疫組織化学で見ますと、有意な数及び面積の増加がありました。更に特徴的だったのが、病理組織学的に典型的な胆管線維症が尾状葉に特異的に発生していることが分かりました。これも先ほどの腎臓と同じような形で、尾状葉だけで変異が上がっているかどうかを見たのが下の枠です。結果としては尾状葉においてもgpt及びSpi-はネガティブであって、外側左葉と同じでした。ラットは肝臓において、遺伝毒性がないという結論になるかと思います。
 その下がマウスの試験です。マウスについても同じような結果で、gpt及びSpi-は、いずれも陰性でした。ただし、この場合も小核が4週間の試験で陽性、13週間で陰性というように結果が分かれています。7ページの下の囲ってある所に、まとめが書いてあります。Furanのgpt deltaラットを用いた併合試験によって、肝臓において胆管線維症が誘発された。肝臓全体及び葉ごとの解析の結果、Furanのラット肝臓における遺伝毒性は陰性であった。マウスの肝臓においても遺伝毒性は陰性であったと考えられ、総合的にFuran誘発のげっ歯類における肝発がん機序に、遺伝毒性メカニズムは関与していない可能性が示されました。
 8ページに、1-Methylnaphthaleneのgpt deltaマウスを用いた試験の結果をまとめてあります。1-Methylnaphthaleneというのは香料にも使われるものの1つで、マウスの長期試験においても肺発がん性(アデノーマ)が有意に増えたという結果が出ております。遺伝毒性については、姉妹染色分体交換試験(SCE)において陽性あるいは陰性の結果が出ていて、これも白黒はっきりしないものでした。これを13週間マウスに投与しますと、標的臓器に特段の組織所見もなく、細気管支を中心に細胞増殖活性を見てもcontrolと差がない。遺伝毒性の変異原性についてもgpt及びSpi-はコントロールとの有意差がないということで、この物質について仮に発がん性があったとしても、そのメカニズムに遺伝毒性は関与していないということが示されました。
 最後の試験の結果が、1-Methyleugenolについてです。これも香料物質の1つで、やはりげっ歯類において肝発がん性が知られていて、IARCでgroup 2Bという評価がなされています。遺伝毒性のメカニズムの関与は不明でのままです。結果のまとめとして、細胞増殖活性が雌雄ともに肝臓において有意に増加しています。また、雌雄ともGST-Pの陽性巣が増加し、さらに遺伝毒性についてはgpt及びSpi-の変異頻度が有意に増加していました。そういうことから総合的にこの物質については、恐らく肝発がん機序に遺伝毒性メカニズムと細胞増殖活性の亢進の双方が関与しているだろうと考えられました。
 9ページに「現行の安全性試験」と書いてあります。亜急性、がん原性、遺伝毒性試験というのは、医薬品や農薬等のケースを想定しています。がん原性試験が陽性で遺伝毒性試験がGrayの場合、メカニズム試験をやりますが、その中にレポーター遺伝子導入動物もその1つです。その結果によって遺伝毒性があれば閾値なし、遺伝毒性がなければ閾値ありという判定をしているわけです。9ページの下にありますように、私どもが提唱している遺伝毒性・発がん性包括試験では、亜急性毒性試験の段階でレポーター遺伝子導入動物を用いることにより、反復投与毒性及び遺伝毒性が評価でき、さらに発がん性のスクリーニングも、肝臓が標的であればGST-Pを免疫組織化学で調べることによって可能となり、閾値があるかないかがある程度分かるのだろうと思っております。
○大前座長 御質問あるいは御意見はいかがでしょうか。
○吉田委員 もし、この一致試験をされると、時間的には大体どのくらいかかるのですか。あと、用量相関性のことですが、例えば高い用量で出て発がん用量では出なかったとか、発がん用量より更に低い用量で出たときの解釈は、どうされるのですか。この2つについてお伺いします。
○西川委員 時間的なことは、例えば通常の4週間とか13週間の反復投与毒性試験に加えて、遺伝毒性のassayをする時間プラス細胞増殖活性や、GST-Pの免疫組織化学をする時間が増えるだけで、それほど大幅に時間を増やす必要はないのかなと。もちろん、それにかかりきりにならなければいけないと思いますが。
 用量相関性については、もちろん高い用量で陽性になることがほとんどです。御質問の意味は、例えば中間用量で高かったらどうするかということですね。これは通常の遺伝毒性の評価と同じで、あまり高い用量で毒性がものすごく強く出ているのであれば、やはり高い用量の群は採用せずに評価せざるを得ないことがあると思いますけれども、要はケース・バイ・ケースになるかと思います。
○江馬委員 全ての器官で病理組織学的検査と遺伝毒性を調べることになるのですか。
○西川委員 そうです。その点については通常の反復投与毒性試験と全く同じです。プラスちょっと余分なというか、有益な情報が入手できるということです。
○櫻井委員 Furanのデータについてです。胆管線維症が検出されておりますけれども、もしこの細胞増殖活性を調べたら、当然活性が上がっているだろうと思われるわけですか。
○西川委員 この試験で調べたかどうかは覚えがないのですが、非常に異型的な腺管が出ており、核の構造も少し変になっていて大型化している。そういうところから見ると、たぶん調べれば細胞増殖は上がっているのではないかと思います。もしかしたらやっているかもしれないので、後で確認して御連絡します。
○櫻井委員 細胞毒性や炎症というのは似たようなものですか。そこが基本的によく分からないのです。その結果、このように線維化にもなる。その前にはやはり炎症があるとかネクローシスがあったとか。
○西川委員 胆管線維症の発生機序そのものは、実はよく分かっていないのです。したがって、この前に何があったかというのは。たぶんその部分だけに限局的に炎症が起こるというのは、考えにくいところもあります。ちょっとうろ覚えですけれども、血流の関係でこういう所に高濃度のばく露があるのではないかということが、たしか書いてあった文献もあったと思います。申し訳ありませんが、細かいメカニズムは分かりません。
○櫻井委員 いま話題の胆管がんとの関連で、特に興味を持って伺いました。あれもこういった現象が見られているようですね。
○西川委員 そうですね。
○櫻井委員 必ずしも変異原性、遺伝毒性を介さない可能性もあるからだと。
○西川委員 そうですね。
○津田委員 胆管線維症については、人を診断している病理医に見せますと「がん」と言うのです。異形性もあるし、胆管がんあるいは腺がんとよく似ています。しかし動物ではそれは、発がんに関係のない物質を投与しても発生します。それを長期観察しても動物は死に至らない。それで癌とは別の特異な病変だということで、胆管線維症と診断されます。癌とはほとんど関係ないと、動物の病理では考えられています。
○大前座長 このレポーター遺伝子導入モデルの結果と、既存の結果、発がん実験あるいはAmes等との一致度はどうですか。
○西川委員 必ずしも一致するわけではないのですけれども、我々の場合は発がんの起こった臓器について検索しているわけですから、我々の成績のほうがより正確だろうと考えております。なぜかというと、最初に申し上げたように、いわゆる遺伝毒性試験というのは、標的臓器において検索しているわけではないので、そこで乖離があってもおかしくないなと思っています。
○吉田委員 先生方のグループで、遺伝毒性は陽性だけれど発がん性はなかったというのは、今回示されていましたか。遺伝毒性は既知の文献から陽性だけれども、2年間のラットの試験では発がん性はなかったと。
○西川委員 それについてはやっていないかもしれませんね。つまり優先順位があるからだと思います。それは数をやれば必ず出てくると思います。
○吉田委員 生体で陰性が出てくると、大変有用な情報かなと思うのです。
○江馬委員 この試験というのは、ラットとマウスの両方で試験をする必要があるということですか。例えば片一方が陰性に出た場合はほかの種の試験は必要でしょうか。
○西川委員 原則、発がん性あるいは遺伝毒性がGrayか不明である場合は、ラットでいいと思うのです。既にマウスで発がん性があると言われている1-Methylnaphthaleneのようなものは、やはりマウスでやらないと、ラットでやっても種が違うからだと言われたら元も子もないので、そういう場合にはマウスを優先的に使うことにしております。
○江馬委員 原則的に全然調べられていないものであれば、2種の動物で試験をすることになるのですか。
○西川委員 とりあえずスクリーニングという意味からも、ラットだけでいいのではないかと思っております。
○櫻井委員 Methylnaphthalenなどのデータを見ても、腎でも近位尿細管ではなくて遠位尿細管のほうですね。要するに局在の問題が。
○西川委員 オクラトキシンAですね。
○櫻井委員 それですね。これは非常に局在ですよね。ですから全体で見ても分からなくて、たまたまちゃんと分けてみたら分かるという状況だと、あらかじめこの臓器なら怪しいということがないと、そこまで調べるに至らない。
○西川委員 まさにそのとおりです。したがってこの試験のメリットは、同時に組織学的所見も全身臓器で見られるわけですから、検査する臓器の優先順位を決める上で所見のある臓器、特に過形成のような病変がある場合には、優先的にassayをする必要があります。組織を見て病変が局在している場合には、やはり分割して見ることもできるわけです。ケース・バイ・ケースで、いろいろ対応は可能だということです。
○津田委員 gpt deltaのラットを使ったときに、発がんする臓器と変異原性の見つかる臓器の一致率はどうですか。必ずしも一致していないという報告もいくつかあるように思いますが。
○西川委員 それは当然、非遺伝毒性メカニズムによる発がんはあるわけですから。
○津田委員 いや、遺伝毒性のあるものを投与して、発がんする臓器もあるというのが分かっていますよね。それでgpt deltaで見たときに、gptないしSpi-のどちらかで変異性が見つかった臓器の細胞、DNAを取ってくるわけですね。その一致率です。きちんと変異原性がある所に発がんしているのかということです。私の印象では、そう高くない気がしているのです。
○西川委員 これも自前のデータを強調する必要はないのですけれども、通常の遺伝毒性試験とこのassayにおける遺伝毒性の結果が違った場合ですよね。通常の試験というのは、臓器のレベルで見ていないわけですから。
○津田委員 私の質問は、肝発がん物質がありますよね。そのときにgpt deltaに投与して、レポーター遺伝子の変異がきちんと肝臓で起こっているかどうかという。
○西川委員 それはもちろんDENでも見ていますし、最初に紹介したIQとか、ニトロソ化合物のニトロソピロリジンも確実に陽性となることが分かっていますので。
○津田委員 全体としてたくさんやられたと思うのですけれども、統計的に合致率というのは。先ほどのspecificityは。
○西川委員 合致率というのは、通常の遺伝毒性の成績とここのassayでの遺伝毒性の試験の合致ですか。
○津田委員 発がんする臓器とレポーター遺伝子の変異が見つかる、元が合致する率です。発がん性ではなくて発がんする臓器です。
○西川委員 質問を要約しますと、例えば発がんが起こっても、そこに遺伝毒性が関与しなければnegativeになりますよね。
○津田委員 例えばある臓器には発がんするけれども、そこにはレポーター遺伝子のmutationはなかった場合もあるわけですよね。
○西川委員 当然Furanなどは肝臓には遺伝毒性がないのです。ただしラット・マウスに投与すると肝細胞がんと、ラットにおいては胆管がんが出てくるという結果が出てくるのです。
○津田委員 ですから、それは臓器細胞として一致しているわけですね。
○西川委員 一致と言うにはちょっと何か。
○津田委員 もともとこのgpt deltaを介された理由は、発がんする臓器細胞でこの遺伝子の変異を見るのですね。ですから結局はたくさんのものをやって、発がんする臓器とレポーター遺伝子の変異が見つかる臓器と100%一致するのか。
○西川委員 それは遺伝毒性が関与していなければ、遺伝毒性はnegativeになりますよね。
○津田委員 遺伝毒性が関与していなければ。
○西川委員 ですから、それをまとめても余り意味がないのかなと思ったのです。
○吉田委員 例えば、明らかにターゲットが分かっていて、遺伝毒性・発がんメカニズムが出る物質を100なり集めて、いろいろな施設でバリデーションをすれば、非常にきれいなデータになって、このラットが使えると。特にオクラトキシン等で部位特異性が見られるというのは、非常に有用だと思いました。バリデーションをしてみると、ある意味でいまの津田先生の御質問になると。
○津田委員 それが必要ですよね。
○櫻井委員 もしそれが一致しなかった場合は、もともと肝臓でがんが起こっていたとすると、それは遺伝毒性による発がんではないと判断するとおっしゃっていたわけですね。
○西川委員 そういうことです。
○櫻井委員 むしろそちらを優先しているわけですね。
○西川委員 そういうことです。
○櫻井委員 レポーターのデータを優先していると。
○西川委員 ええ。例えば小核がポジになったものもあるのですけれども、結果としてnegativeなのです。そもそも小核というのは、せいぜい骨髄しか見ていないわけですから、その発がんにおける遺伝毒性の関与はないだろうというのが結論です。
○大前座長 先生のデータの中で、吸入実験もあるのですか。
○西川委員 それはないのですが、理論的にワイルドと同じと思っています。特に遺伝子を挿入することによって、何らかの機能変化が起こっていないことは概ね確認済みです。したがって通常の野生型のラット・マウスと同じように、吸入実験もできると思っております。
○清水委員 5ページの上にgpt mutation spectraが出ていますが、これはpoint mutationではなくて、別の倍数体(polyploid)のようなメカニズムで起こる突然変異は検出できるのですか。G:C→A:Hとトランスバージョンとか、トランスジションとか、point mutationで起こるようなものに対して、倍数体だけ起こすような形で突然変異を起こす物質に関しても、これは可能ですか。
○西川委員 それは欠失とは違うわけですか。
○清水委員 違います。
○西川委員 その辺りの詳しいことは存じません。
○大前座長 もう少しテーマがありますので、どうもありがとうございました。次は、「がん原性試験結果の評価について」ということで、事務局から説明をよろしくお願いします。
○大淵調査機関査察官 それでは、資料3-1を御覧ください。日本バイオアッセイ研究センターで行った3-アミノフェノールの試験結果の資料です。こちらの資料については、初めに私から簡単に説明をして、実際の試験の結果を日本バイオアッセイ研究センターから説明していただきます。
 1ページ、「被験物質について」です。構造式としては、ベンゼン環に水酸基、アミノ基が付いた構造のものです。1-3「物理化学的性状等」ですが、白色ないし薄い灰色の結晶で、融点が122℃の物質で、水やアルコール、エーテル等に溶けるようなものです。1-4「用途」としては、染料や医薬品、感熱色素、農薬、アラミド繊維等を作る際の原料として使用されるようなものです。
 1-5「生産量、製造業者」ですが、年間100~1,000tという相当程度の量のものが製造されております。1-6「許容濃度等」ですが、現在のところは規制対象物質ではないので、管理濃度等はありませんし、産衛学会やACGIH等の濃度も設定はされておりません。IARCでの発がん性の評価もまだ行われておりません。
 1-7「変異原性」の関係です。こちらは既存の文献を調査した結果ですが、細菌を用いる復帰変異試験については4つほど文献があり、大部分のものは陰性の結果ですが、1つだけ陽性のものがあります。文献7で、TA98のS9(+)で陽性が出て、それ以外の試験では陰性ということです。また、チャイニーズ・ハムスターを使った染色体異常試験ですが、代謝活性化の有無にかかわらず構造異常が認められているという結果になっております。
 以下の資料については、日本バイオアッセイ研究センターから説明をしていただきます。
○加納氏(日本バイオアッセイ研究センター) 概要を御説明します。「方法」は、ラット、マウスを用いて被験物質投与群の3群、対照群1群の4群で、雌雄各群50匹を使用しました。合計ラット400匹、マウス400匹を使用しております。
 投与は3-アミノフェノールを飲水に混合しました。それを動物に自由摂取させることにより行いました。投与濃度は、ラット、マウス雌雄ともに0ppm、625ppm、1250ppm、2500ppmとしました。
 「結果」です。10ページに生存率の推移を示しております。上が雄、下が雌ですが、雌の2500ppm群でのみ生存率の低下が見られております。雌雄ともに特定の病変による死亡の増加は見られておりません。
 11ページに体重の推移を示しております。体重は雌雄とも2500ppmで、投与期間を通して増加の抑制が見られております。また、1250ppmでも投与期間の終期に体重の低値が見られております。そのほか、摂餌量、摂水量については、投与濃度に対応した増加の抑制が見られております。
 病理組織学的検査について説明します。8ページ、主な腫瘍の発生について表に示してあります。この中で腫瘍の発生増加が見られたと考えられるものは甲状腺です。甲状腺については、濾胞状腺がんの発生が対照群0に対して、625ppmが0匹、1250ppmが1匹、2500ppmが4匹ということで、Peto検定、Cochran-Armitage検定の傾向検定で増加を示しました。しかし、対照群との比較で、Fisher検定では増加を示しておりません。また、1250ppmと2500ppmの発生は、日本バイオアッセイ研究センターのヒストリカルコントロールデータの範囲(最小0~最大8%)内でした。ただし、このヒストリカルコントロールデータはバイオアッセイ設立当初からの57試験(約2,800匹)のデータを基に集計したものです。このヒストリカルコントロールデータを各57試験について吟味しましたが、最高発生率4匹8%を示した試験は、19年前に実施された試験1試験のみで、近年10年間のヒストリカルコントロールデータと比較すると18試験、900匹になりますが、この範囲を超えております。
 さらに、濾胞状腺腫と濾胞状腺がんを合わせた発生についても、Peto検定、Cochran-Armitage検定で増加を示しましたが、Fisher検定では増加は示しておりません。この2500ppmの発生10%も、1例ですが、ヒストリカルコントロールデータの範囲を超えております。また、近年10年のヒストリカルコントロールデータと比較すると、これもその範囲を超えておりました。ただし、濾胞状腺腫の発生は対照群1に対して625ppmが1匹、1250ppmが2匹、2500ppmが1匹で、この発生は対照群にも見られて、傾向検定あるいはFisher検定では増加を示しておりません。
 また、濾胞上皮には前腫瘍性病変である濾胞上皮過形成などの発生増加も見られておりません。文書に記載はありませんが、雌ラットにはこれらの腫瘍は1匹も発生が見られておりません。
 7ページ、5「まとめ」です。甲状腺腫瘍だけの結果をまとめますと、雄ラットの甲状腺における濾胞状腺がん及び濾胞状腺腫と濾胞状腺がんを合わせた発生については増加傾向を示しましたが、3-アミノフェノールの雄ラットに対するがん原性を示す証拠としては不十分だったということにしました。
 3ページに戻ります。耳道腺の腫瘍です。耳道腺には、良性と悪性を合わせた腫瘍の発生が、対照群1匹に対して625ppmで0匹、1250ppmで0匹、2500ppmで3匹ということで、これはPeto検定で増加傾向を示しましたが、Fisher検定では示しませんでした。この2500ppmの発生率6%は、バイオアッセイのヒストリカルコントロールデータの範囲(最小0~最大4%)を1例超えておりました。しかし、2500ppmの発生は3匹と僅かだったことと、対照群にも発生が見られたことから、この両者を合わせた発生については被験物質投与の影響ではないと判断しました。
 そのほかに副腎の褐色細胞腫、あるいは褐色細胞腫と悪性の褐色細胞腫を合わせた発生、下垂体腺腫の発生、包皮腺腺腫の発生が有意差を示しましたが、いずれも減少性の変化でした。腫瘍の発生は以上です。
 次に、雄の非腫瘍性病変です。表はありませんが、腎臓で腎乳頭壊死と褐色色素沈着、また慢性腎症の程度の増強がいずれも2500ppm群で見られました。肝臓で肝海綿状変性が見られておりますが、これは減少性変化でした。
 雌の腫瘍性病変について、8ページの下の表です。4ページの下から3行目に誤記載があります。「腫瘍性病変、被験物質投与の」と書いてありますが、「腫瘍性病変」の文字を削除していただきたいと思います。雌については、被験物質投与による腫瘍の発生増加は見られておりません。子宮内膜間質性ポリープの発生が625匹で有意差を示しておりますが、減少性変化でした。
 雌の非腫瘍性病変ですが、これも腎臓に腎乳頭壊死と褐色色素の沈着、また鼻腔に嗅上皮のエオジン好性変化の増強が見られております。そのほか、甲状腺のC-細胞過形成、肝臓の肉芽形成の増加、炎症性細胞集蔟巣の減少、あるいは下垂体の血管拡張の増加と眼の網膜萎縮の減少という変化が見られておりますが、いずれも減少性の変化、あるいは投与濃度に対応した変化ではありませんでした。
 これらの結果から、2年間のラットにおける混水経口投与における無毒性量は、腎臓への影響をエンドポイントとして雌雄とも625ppm、雄では33?/?/day、雌では50?/?/dayであると考えられました。ラットの結果については以上です。
 マウスについては、12ページの図3に生存率のグラフが示してあります。投与群ではいずれも生存率の低下は認められませんでしたが、マウスについては雄雌とも対照群がいちばん生存率が低く、いずれも48%という結果でした。
 13ページに体重の推移のグラフが示してあります。雄雌ともに2500ppm群で投与期間を通して、雄では1250ppm群で投与期間の中期に、雌でも1250ppm群で低値が散見されております。そのほか摂餌量・摂水量についても、ラットと同様に投与濃度に対応した低値が見られております。
 病理組織学的検査の結果を9ページの表3に示しております。マウス雄については、被験物質投与による腫瘍の発生増加は見られておりません。肺の細気管支-肺胞上皮がんの発生、あるいは肺胞上皮がんと腺腫を合わせた発生が、Fisher検定、Cochran-Armitage検定で有意差を示しておりますが、いずれも減少性の変化でした。また、肝臓の肝細胞腺腫の発生、肝細胞腺腫と肝細胞がんを合わせた発生も減少性変化を示しております。
 先ほど、対照群でいちばん生存率が低かったと言いましたが、肝細胞がんでコントロールで死亡の増加を示したものが多く、対照群がこれでいちばん生存率が低くなりました。また、非腫瘍性病変ですが、水腎症の発生によっても対照群の生存率が低下しております。雄の非腫瘍性病変では、脾臓にヘモジデリン沈着の発生増加と程度の増強、髄外造血の発生が2500ppmで見られております。そのほか、肝臓にはクッパー細胞への褐色色素の沈着、甲状腺でも濾胞上皮への褐色色素の沈着が2500ppm群で見られております。
 9ページ、表4に雌の結果を示しております。乳腺では、腺がんの発生が対照群0匹に対して625ppmが1匹、1250ppmが0匹、2500ppmが3匹で、Peto検定とCochran-Armitage検定で増加傾向を示しましたが、Fisher検定では増加を示しておりません。625ppmと2500ppmの発生は、ヒストリカルコントロールデータの範囲(0~8%)の範囲内でした。したがって、腺がんの発生については投与の影響ではないと判断しました。なお、腺扁平上皮がんが625ppmと2500ppmで各1匹認められ、腺がんと腺扁平上皮がんを合わせた発生はPeto検定、Cochran-Armitage検定で増加を示しましたが、Fisher検定では増加を示しませんでした。これらを合わせた発生はヒストリカルコントロールデータの範囲であったことから、被験物質の投与の影響ではないと判断しました。
 次に、雌の子宮の腫瘍です。子宮の組織球性肉腫の発生が対照群16匹に対して625ppmが14匹、1250ppmが12匹、2500ppmが12匹ということで、Peto検定で数字は少なくなっておりますが、増加傾向を示しております。これは死亡に関与した発生が減少傾向にあって、組織球性肉腫の総発生数に変化は見られておりません。組織球性肉腫の発生は、いずれもヒストリカルコントロールデータの範囲(10~34%)の範囲内であったことから、これも投与による影響ではないと判断しております。
○津田委員 増加傾向というのはどういう意味ですか。
○加納氏 先ほど言いましたように、対照群が16匹、625ppmが14匹、1250ppmが12匹、2500ppmが12匹ということで、発生数としては見掛け上少なくなっております。ただし、死亡に関与した発生は少なくなっているのですが、104週目の最終解剖時にこの腫瘍が見られた数が増えております。したがって、有病率法では増加傾向ということです。
○津田委員 単に50分の12ということで見ているわけではないということですね。
○加能氏 はい、傾向検定です。死亡に関与したものは減っているが、解剖時に見られた発生率は増えておりました。
○津田委員 要するに、残っている動物が少なかったということですね。
○相磯氏(日本バイオアッセイ研究センター) そういうことになります。これは死亡状況を加味した傾向検定では有意になりますが、全体として最終的に残っている動物で見ると変化がないことになります。
○津田委員 増えているように見えるということですか。
○加納氏 この帳票に出ている数字だけでは逆に減っておりますが、検定上は増えたという結果になってしまうということです。有病率法のみで。
○大前座長 よろしいですか。それでは、続けてください。
○加納氏 雌の非腫瘍性病変ですが、これは脾臓についてヘモジデリン沈着の発生増加と程度の増強。髄外造血の発生が見られております。肝臓にはクッパー細胞への褐色色素沈着、甲状腺でも濾胞上皮細胞への褐色色素沈着がいずれも2500ppmで増加しております。
 これらの結果をまとめると、マウスの2年間の混水経口投与による無毒性量は、血液/造血系への影響をエンドポイントとして、雌雄とも625ppm、雄では64?/?/day、雌では81?/?/dayと考えられました。
 以上のラット、マウスの結果をまとめて、先ほど申し上げましたが、ラットでは、雄ラットの甲状腺への濾胞状腺がん、及び濾胞状腺腫と濾胞状腺がんを合わせた発生は増加傾向を示しておりますが、3-アミノフェノールの雄ラットに対するがん原性を示す証拠としては不十分と考えました。雌ラットについては、腫瘍の発生増加は認められず、がん原性は示されませんでした。
 マウスについては、雌雄とも腫瘍の発生増加は認められず、3-アミノフェノールのマウスに対するがん原性はないと結論しました。以上です。
○大前座長 ラット、マウスの2年間飲水実験で、雄ラットで若干甲状腺の濾胞状腺がんがいちばん高濃度のヒストリカルコントロールデータよりも1匹ぐらい増えていて、そこが有意になっているという御報告でしたが、いかがでしょうか。
○吉田委員 今回初めてなのでお伺いしたいのですが、これはがん原性試験なので、血液の生化学データは行われていないのですね。ということは、発がん性試験ならば、発がん性に対するNOAELを出すということはされないのですか。これは一般毒性に対するNOAELのように思うのですが。
○加納氏 今回、病理に絞って説明しておりますので、血液、生化学、あるいは尿検査なども行っておりますが、説明を省いてしまいました。
 例えば、7ページの最後のNOAELのところで、血液/造血系への影響をエンドポイントと言いましたが、説明不足で申し訳ありません。
○吉田委員 これは貧血があるのですね。
○加納氏 実際は軽度の貧血とかメトヘモグロビンの影響などが見られます。それで文章がこうなってしまって、説明不足で申し訳ありませんでした。
○吉田委員 そうしますと、溶血性貧血をエンドポイントに、一般毒性のNOAELは、特に私はこれについては異論はないのですが、例えば発がんに対するNOAELだと1段上がるのではないかと。ラット、マウスとも発がんに対するNOAELはいくつということは出さなくてよろしいのですか。
○大前座長 これは、発がん物質として見るか見ないかを議論していただいて、もし発がん物質と見るとしたら、いま先生がおっしゃったような議論になると思いますが、その観点からいかがでしょうか。マウスはネガティブであると。また、ラットの雌はネガティブで、雄は甲状腺のところで若干ありそうだということですが、バイオの評価としては不十分なエビデンスであろうという結論です。
○吉田委員 確認しますが、肝臓の肥大で、肥大によるUDPGTが上がったという証拠は、過形成がないことから恐らくないと私は判断したのですが、そういう判断でよろしいですか。
○相磯氏 ラットの甲状腺腫瘍について、この試験の前に13週の濃度設定試験を行っています。13週試験は、本試験の2500ppmと、さらに2つ上の濃度、4000ppmと5000ppmの2つの濃度で試験を行っています。4000ppmでは体重が89%に減少しているにもかかわらず、肝臓の実重量が対照群の103%となっており、肝重量が増えていることが示されました。5000ppmでも体重が82%に減少しているのにもかかわらず、肝重量が97%と、3%しか減っていません。肝臓の比重量でも5000ppmと4000ppmで増加があるので、肝臓でのT3、T4では薬物代謝が亢進していると考えたほうがよろしいのではないかと思っています。それで、今回の試験で用いた最高用量の2500ppm群の体重が対照群で85%、肝臓の実重量が対照群の88%、肝比重量が103%となっていて、ほとんど肝重量に増加が見られていませんが、甲状腺腫瘍は傾向検定で辛うじて引っかかった程度の発生でした。また、ヒストリカルコントロールデータの範囲でも1例出るか出ないかという非常に微妙な線で、この発がん性試験で甲状腺腫瘍が引っかかってきたという結果になっております。
  遺伝毒性の結果がおおむねマイナスで、閾値が設定できるかもしれません。それについてはこの審議でお願いします。
○津田委員 肝臓が大きくなるというのは、マイクロゾームの酵素が誘導がかかったのとは違うのですか。
○相磯氏 そこまで組織的にしっかりとした変化として見られるような像はありませんでした。肝臓での組織変化はないけれども、肝重量は対照群とほぼ同じで、肝臓が大きくなっていたと思われます。
○津田委員 大きくなっているならマイクロゾームがいちばん考えられるのですが、そうするとTSHが出たということで、甲状腺に若干腫瘍が増えたことの説明がつくのですが、そのようには認められなかったのですか。
○相磯氏 その病理所見はありません。ただ、臓器重量と体重のデータから考えて、肝臓肥大が辛うじて少し起こっているのではないかと思います。
○津田委員 甲状腺重量は測っていないのですか。
○相磯氏 甲状腺重量は13週試験で測っています。先ほど申し上げた5000ppmは、実重量で対照群と同じ100%、4000ppmで104%と少し上がっています。比重量にすると、当然5000ppmで125%の増加、4000ppmで113%の増加と。今回、発がん性で甲状腺腫瘍の発生が疑われて、2500ppmでは甲状腺の比重量が113%に増加しております。
○津田委員 増えているわけですね。
○相磯氏 はい。ただ、メカニズム試験をやっていないので、はっきりとしたことは言えないのですが、恐らくは肝比重量の増加と、そこでのT3、T4の薬物代謝が起こっているのではないかと思います。
○津田委員 TSHは測っていないのですか。
○相磯氏 測っていません。
○櫻井委員 マウスのコントロールで死亡率が高い、ほとんど悪性腫瘍で死んでいるのかもしれませんが、結論はいいと思うのです。低用量から高用量までの動きを見ると、特段の問題はないと思います。ただ、コントロールがやたらと死亡に、これはヒストリカルコントロールデータの状況と比べてどのように判断していますか。
○相磯氏 死亡した時期がほとんど104週の最後の1~2週のところでバタバタと死亡し、マウスの対照群の死亡率が肝腫瘍で上がっています。
○加納氏 生存のヒストリカルコントロールデータという意味でしょうか。
○櫻井委員 あるいは生存だけではなくて。
○加納氏 生存のヒストリカルコントロールデータは、今回、雌雄ともに48%なのですが、いま相磯が言いましたように48%になったのが、最後の104週目で両方とも50%を切ってしまいました。過去にやった経口の混餌あるいは混水試験の生存率のヒストリカルコントロールデータと比較すると、平均が雄では68%、雌では58%と明らかに低かったのです。ただし、生存率の範囲は過去に13試験ほど行っていて、雄では最終生存率が55~82%、雌でも46~72%ということで、その時期で導入した動物のロットによってかなり差が出ます。
 また、先ほど生存率が下がった原因は、雄では肝臓腫瘍の死因が多かったということと、水腎症の死因が多かったということを申しましたが、水腎症もこの系統のマウスでは遺伝的によく出るものですが、これも導入時期によってかなりばらつきがあって、全然出ないときもありましたが、今回コントロールで7匹水腎症で死亡しております。それでコントロールの対照群の生存率が下がったということです。
 雌マウスについても、子宮腫瘍で死亡した動物が割と多くて、雌のコントロールと1群で若干生存率が低かったのですが、投与濃度が高いほうが生存率がよかったということです。
○吉田委員 私は、ラットの甲状腺腫瘍については19年前に8%の個体があったということで、ヒストリカルコントロールデータの可能性が高いのではないかと思います。Fisherのラットは、C-cellは出ますが、濾胞は出ないというのは、病理の方はよく御存じだと思うのですが、もしこれが誘発されたものであれば、前がん病変を含め、もう少しadenomaも増えていってよろしいのではないかと思うのですが、そういった傾向がない。
 また、先ほどの高用量であれば酵素誘導の可能性もあるのですが、もし酵素誘導であれば、もう少しびまん性の過形成が増えてくるので、そういうことがないことから、私は今回は偶発的な増加ではないかと考えます。
○大前座長 そのほかには御意見はいかがでしょうか。
○西川委員 前腫瘍性病変、いわば過形成ですね。adenomaが出てくるので。3ページの下のほうに、「濾胞上皮には前腫瘍性病変の発生増加が見られなかった」というのは、過形成が一切なかったということですか。
○加納氏 濾胞上皮過形成の発生増加は見られておりませんが、若干発生は見られております。コントロール0匹に対して2匹、2匹、1匹となっております。
○西川委員 だから、肝肥大からTSHが増加して、これが腺腫に影響を与えたにしては、少し影響が強くないような気がします。結論としては、吉田先生がおっしゃったように、ヒストリカルコントロールデータを長めに見ればそれに入るということもあって、甲状腺についてはがん原性がないということでいいかと思います。
○大前座長 それでは、この委員会に関しては、特に労働者に対してがんを生ずることはないであろうという結論でよろしいでしょうか。
 どうもありがとうございました。以上で本日予定していた議事は終了ですが、事務局から何かありますか。
○松井化学物質評価室長 資料5と資料6については、今回議論いただく時間がありませんが、前回議論いただいた結果を踏まえて修正をしたものです。次回が来月28日の開催ですので、事務局から各委員に後ほどメールでお送りして、御意見を伺って、次回以降の議論に役立てたいと思っておりますので、よろしくお願いします。
 資料7に今後の予定がありますが、いま御説明しましたように、次回は11月28日です。以上です。
○大前座長 それでは、以上で本日の小検討会を閉会いたします。どうもありがとうございました。


(了)

ホーム> 政策について> 審議会・研究会等> 労働基準局が実施する検討会等> 平成24年度化学物質のリスク評価検討会(有害性評価小検討会)> 化学物質のリスク評価検討会の「第3回有害性評価小検討会」

ページの先頭へ戻る