〈5分でわかる統計学入門〉全員から回答を集めなくても、なぜ信頼できるデータが得られるのか?
政府統計などの調査では、すべての調査対象にアンケートを取っているわけではない。ごく一部の対象者にだけ質問をするという、「標本調査」という手法が採用されるのが普通だ。それでは、このような方法で得られたデータはなぜ信頼できるのだろうか? 話題の書籍『ヤバい統計』から一部を抜粋して紹介する。
標本調査で注意すべき「落とし穴」とは
ただし、注意しなければならないのは、無作為に人を選ぶ場合には、同じような顔ぶれが揃ってしまう可能性も覚悟しなければならないということだ。
陪審員はまったく無作為に選ばれため、「全員男性」「全員女性」「みな同じような年齢」「みな似たような経歴」といった陪審団になる可能性だってある。可能性はきわめて低いが、ありえなくはない。
すべての画像を見る
さらに、陪審員団が被告人といわゆる「同輩」である保証もどこにもない(注:「被告人は被告人と年齢や地位、経歴などが同じ人によって裁かれるべき」だという、陪審についての古くからの考え方を指す)。まったく同じでない可能性だってある。
一方、標本調査で集団同士を比較する場合には、多様性のある標本を用意しなければならない。
たとえば、「ミレニアル世代(1981〜1996年生まれ)よりもベビーブーマー世代(1946〜1964年生まれ)のほうが、マーマイト好きが多い」というのが本当かどうかを調べるための標本調査を行おうとしたとき、抽出された標本がたまたま全員Z世代(1997〜2012年生まれ)だったら、調査を続ける意味がない。
とはいうものの、そうした多様性を実現するには、全人口に関する知識がすでにある程度得られていることが前提となる。
その出発点として有効なのは国勢調査のデータだが、この調査は10年ごとにしか行われないため、そのあいだに直近のデータと現状が年々ずれていく点を考慮しなければならない。
「グッドデータ」(注:統計学的に理想的な良質のデータ)が手に入らない場合には、真実が何であると思われるかについて、なんらかの仮説を立てざるをえない。つまり、人が判断するという人的要素が含まれてしまうことは避けられないのだ。人的エラーが起こる可能性についても同じことがいえる。
写真/shutterstock
ヤバい統計 政府、政治家、世論はなぜ数字に騙されるのか
著者:ジョージナ・スタージ
訳者:尼丁 千津子
2024年1月26日
2,640円
四六判/368ページ
ISBN:978-4-08-737003-4
【絶賛!】
政策はAI(人工知能)では作れないことを、徹底的にわからせてくれる。
――藻谷浩介氏(『里山資本主義』)
その数字は、つくり笑いかもしれないし、ウソ泣きかもしれない。
データの表面を信じてはいけない。その隠された素顔を知るための一冊!
――泉房穂氏(前・兵庫県明石市長)
【データの“罠”が国家戦略を迷走させる!? ビッグデータ時代の必読書!】
「データ」や「エビデンス」に基づいてさえいれば、その政策や意思決定は正しく、信用できると言えるのか?
私たちは政府統計を信頼しきっているが、その調査の過程やデータが生み出されるまでの裏側を覗けば、あまりにも人間臭いドタバタ劇が繰り広げられていて驚くはずだ。本書は英国国家統計局にも関わり、政府統計の世界を知りつくす著者が、ユーモア溢れる筆致でその舞台裏を紹介した一冊である。
扱われるのは、英国の移民政策、人口、教育、犯罪数、失業者数から飲酒量まで、実に多彩な事例。それぞれの分野で「ヤバい統計」が混乱をもたらした一部始終が解説される。いずれも、日本でも同じことが起こっているのではないかと思うような話ばかりだ。
現在、この国では「根拠(エビデンス)に基づいた政策決定(EBPM)」が流行り言葉のようになっている。人工知能の発達も急速に進みつつあり、アルゴリズムに意思決定や判断を任せようとの動きも見られる。「無意識データ民主主義」といった言葉も脚光を浴びつつある。しかし本書を読めば、数字やデータだけを頼りに物事を決めることの危うさが理解できるはずだ。
数学や統計学の予備知識はいっさい不要。楽しみながらデータリテラシーが身に着く、いま注目の集英社シリーズ・コモン第3弾!
【目次】
第一章 人々
第二章 質問する
第三章 概念
第四章 変化
第五章 データなし
第六章 モデル
第七章 不確かさ