ワロタ。
ビッグデータと統計の話。
「風が吹けば桶屋が儲かる」は、
遠い事象の間に因果関係があることを解説したものだが、
実際のところそれが検証された例はない。
一方、
無関係なのに相関があるように見えるものがある。
これを疑似相関という。
どう考えても、ニコラスケイジの出演本数とプールの溺死者には相関がない。
だけどこれが「風が吹けば桶屋が儲かる」
という真の相関があったとしたら?
統計学やビッグデータは、
相関もしくは疑似相関のあるデータを拾うことができる。
だけどそれはあくまで発見器にすぎず、
そこに本当に因果関係があるのかは、
うまく考察しなければならない。
本当に因果関係があるのに、
ただの偶然だろ、と棄却してしまう例も、
中にはあるかもしれない。
相関があり、因果関係がある→よく知られたもの(既知の領域)
相関があるもの
→因果関係がある→上の集合へ
→因果関係がない→偶然の一致
→分からない→新発見の可能性………*
相関がないもの
→因果関係がない→関係がないもの
→因果関係がある→統計に出ない真実がある………*
→わからない→上の集合に含まれるかも…………*
*の部分が、
我々の関心領域だ。
あと物語的には、
「既知の領域なのだが一般には知られていない、
秘匿されたもの」もあるね。
で、このビッグデータがおそろしいのは、
ニコラスケイジと水死者を「因果関係」とみなす危険だ。
デマ、陰謀論、誤った学習や判断などがそれだ。
多数の意見が正しいとは限らない。
世間の半分は偏差値50以下である。
厄介なのは、AIが学習しちゃうことだよな。
明らかに間違ってたら手動でそれをキャンセルできるが、
そうでないものを学習してて、
ある日それを発揮したら…?
水死防止のための制御AIが、
ニコラスケイジの映画出演をチェックして、
水門を過剰に閉めて、
そのことで死亡事故が発生しうる、
ということである。
こういうSF読みたいよな。自動運転で事故る前に。
2021年08月04日
この記事へのコメント
コメントを書く