みなさん、こんにちは。
そういえば、しばらく前に本屋に行った折、偶然に、雑誌Newtonの9月号に目が行った。
なぜならタイトルが「ベイズ統計超入門」とあったからだ。
そこで、中を見ると、なんとベイズ統計を使ってPCR検査の問題を扱った章があった。それで、つい買ってしまったのだった。
Part2 社会で役立つベイズの定理
感染症の検査: 感度99%の感染検査で「陽性」と判定。ほんとうに感染しているといえるのか?
偽陽性と真陽性:ベイズの定理を使えば「ほんとうに感染している確率」がわかる
再検査の意味:再検査で「ふたたび陽性」。感染確率は、どう変わる?
まさに、PCR検査で明け暮れるいまの我が国にはうってつけの定理であろう。
ベイズの定理とは何か?
というと、どうやら我々が普通の確率論でいうところの「確率=先験的確率」というものは、ベイズ統計では「事前確率」と呼ばれる。
Aということが起こる確率=P(A)
Bということが起こる確率=P(B)
Cということが起こる確率=P(C)、。。。
こういうことが起こる確率は普通の確率のことで、こういうものが、何かがさらに起こる前の「事前の確率」と考えられる。
そして、次にAとBが同時に起こる確率をP(A∩B)と書く。
こうすると、Aが起こってからBが起こるという連鎖現象の確率が考えられる。
これをAが起こったという条件付きでBが起きたという、「条件確率」と考える。
これが、P(B|A)。
したがって、
P(B|A) = P(A∩B)/P(A).
こうして、ベイズの定理が定義される。
どうやら、ベイズの定理では、最初に起こる方を「原因」とみて、後で起こる方を「結果」とみる。
そうすると、結果がBであった場合に、その原因がAであるという確率を求めたい。これが
P(原因A|結果B) = P(結果B|原因A)✕P(原因A)/P(結果B)
ただし、
P(結果B) = P(結果B|原因A)✕P(原因A) + P(結果B|原因A')✕P(原因A') + ...
そして、これがより数学的にラプラスによって次のように拡張されたというわけだ。
P(Ai|B) = P(B|Ai)✕P(Ai)/P(B)
P(B) = P(B|A1)✕P(A1) + P(B|A2)✕P(A2) + ... + P(B|Ak)✕P(Ak)
そこで、この定理を使うと、PCR検査でいったい何が起こるかがわかるというわけだ。
さて、そのNewtonには、10万人中100人が感染という場合が例に取られている。このケースはそれを読んでもらい、ここでは実際の東京都の現状を利用したい。
東京都のデータはここで取れる。
陽性者の累計が16252人で、退院者数が12220だから、現在の陽性者数は、16252−12220=4032人になる。
一方、東京都の人口は、13999568人である。
つまり、この段階での感染率は、4032/13999568= 0.000288=0.03%
仮に陽性者の累計をとっても、16252/13999568=0.00116=0.12%
さて、そこではやりのPCR検査を受けるとする。新型コロナウィルスに感染していれば「陽性」、そうでなければ「陰性」と判定。
しかしながら、このPCR検査には精度がある。
仮に感染していない人(非感染者)がPCR検査を受けた場合、全員が100%陰性となるわけではない。
そこで、97%の精度(感度)だったとすると、100人の非感染者が受ければ、97人は陰性(=真陰性)と判定されるが、3人が陽性となってしまう(偽陽性=感染者ではないのに感染者になる)。
一方、実際の感染者がPCR検査を受けた場合、仮に99%の精度(感度)だったとしよう。すると、100人の感染者が受けた場合、99人が陽性(真陽性)と判定され、1人が陰性(偽陰性)と判定される。
要するに、PCR検査を受けた場合、
真陽性、偽陽性、偽陰性、真陰性
の4種類の人が現れるというわけだ。
実際には、矢作直樹先生の話では、PCR検査の精度は50%だという。
ということは、100人の感染者が受ければ、真陽性、偽陰性が50人ずつ。
100人の非感染者が受けても、偽陽性、真陰性が50人ずつ。そういうことになる。
東京都のPCR検査の動向は以下のサイトにある。
感染率は0.03〜0.12%だから、PCR検査数が279275人だとすると、受けた人の中の感染者数は83.7〜335.1。仮に多い方の335人とする。
したがって、非感染者が278949人。感染者が335人という計算になる。
ここでもしPCR検査の精度が50%なら、非感染者278949人のうち半数約139475人が真陰性、半数が偽陽性。
感染者335人のうち、半数の約167人が真陽性、約167人が偽陰性になる。
したがって、139475人+167=139642人が陽性判定になる。
つまり、50%の精度だと、陽性判定の99.98%が非感染者である。0.12%が感染者。
もっと精度が高いとして、精度が90%とすると、非感染者278949人のうち約251054人が真陰性、27987が偽陽性。
感染者335人のうち約302人が真陽性、約33人が偽陰性。
したがって、あたかも27987+302=28289人が陽性判定になる。
つまり、90%の精度だと、陽性判定の99%が非感染者である。1(=302/28289)%が感染者。
これがベイズの統計の帰結である。
P(感染)=16252/13999568=0.00116=0.12%
=335/278949==0.12%
P(非感染)=1−0.12=98.8%
陽性と判定される確率(精度50%の場合)
感染している時 P(陽性|感染) = 0.5
感染していない時 P(陽性|非感染) = 0.5
P(陽性)=P(陽性|感染)P(感染)+P(陽性|非感染)P(非感染)
=0.5・0.12/100+0.5・98.8/100 = 0.49
P(感染|陽性)= P(陽性|感染)P(感染)/P(陽性)
= 0.5・0.0012/0.49=0.00122=0.12%
陽性と判定される確率(精度90%の場合)
感染している時 P(陽性|感染) = 0.9
感染していない時 P(陽性|非感染) = 0.1
P(陽性)=P(陽性|感染)P(感染)+P(陽性|非感染)P(非感染)
=0.9・0.12/100+0.1・98.8/100 = 0.09988
P(感染|陽性)= P(陽性|感染)P(感染)/P(陽性)
= 0.9・0.0012/0.09988=0.0108=1%
というわけで、なんとPCR検査の陽性認定者のうち、わずか100人に1人程度しか本当の感染者はいないという結果になるというわけである。
俺の計算が間違っていなければの話だがね。皆さんも自分で計算してみてチョ。
いやはや、ベイズ統計恐るべし。
ぜひ若者よ、ベイズの定理を学ぼう。