【ITニュース解説】Anscombe's Quartet
2025年09月08日に「Hacker News」が公開したITニュース「Anscombe's Quartet」について初心者にもわかりやすいように丁寧に解説しています。
ITニュース概要
アンスコムのカルテットは、平均などの統計値がほぼ同じなのに、グラフにすると全く異なる見た目になる4つのデータセット。データ分析において、数値だけを信じず、必ず可視化してデータの全体像を把握することの重要性を示す有名な事例である。(119文字)
ITニュース解説
データ分析の世界には、統計的な数値を鵜呑みにすることの危険性を示す、非常に有名な事例が存在する。それが1973年に統計学者のフランシス・アンスコムによって提示された「アンスコムのカルテット」である。これは4つの異なるデータセットから構成されており、データサイエンスや統計学を学ぶ者にとって、データを正しく理解するための基本的な教訓を与えてくれる。システム開発の現場でも、ログデータやパフォーマンスデータなど、様々な数値を扱う機会は増えており、この教訓はすべてのエンジニアにとって重要である。
アンスコムのカルテットの最大の特徴は、4つのデータセットが、基本的な統計的特性においてほぼ同一である点にある。具体的には、それぞれのデータセットに含まれるxの値の平均と分散、yの値の平均と分散、xとyの相関係数、そしてデータ全体の傾向を示す回帰直線(データを最もよく表現する直線)の式が、小数点第2位や第3位まで一致するように巧妙に作られている。もし分析者がこれらの要約された統計値だけを見て判断した場合、4つのデータセットはすべて同じような性質を持ち、同じような関係性を示していると結論づけてしまうだろう。しかし、その結論は全くの誤りである。
このデータセットの真価は、データをグラフ上にプロットし、視覚化した時に初めて明らかになる。4つのデータセットを散布図にすると、それぞれが全く異なる分布を示していることが一目瞭然となる。1つ目のデータセットは、点が直線の周りに程よくばらけており、多くの人が想像するような典型的な正の相関関係を示している。統計的な数値とグラフの見た目が一致しており、直線で関係性を要約することに違和感はない。2つ目のデータセットは、直線ではなく、明確な放物線のような曲線を描いている。データ間に強い関係性があることは明らかだが、それは線形(直線的)な関係ではない。このデータに対して直線的な回帰分析を適用することは、データの持つ本来の構造を無視した不適切な分析と言える。
3つ目のデータセットは、ほぼ完全な直線状にデータが並んでいるが、一つだけ大きく外れた値(外れ値)が存在する。このたった一つの外れ値が回帰直線を大きく引きずり、結果として1つ目のデータセットとほぼ同じ相関係数と回帰式を生み出している。もしこの外れ値がなければ、相関係数は1に非常に近い、ほぼ完全な直線関係となるはずである。これは、たった一つのデータが全体の統計値にどれほど大きな影響を与えるかを示している。最後の4つ目のデータセットはさらに極端である。ほとんどのデータ点がx軸の特定の値に集中して垂直に並んでいるが、一つだけx軸の遠い位置に存在する点がある。この一点が強大な影響力を持ち、本来は無相関であるはずのデータ群に、見かけ上の強い相関と回帰直線を作り出しているのである。
アンスコムのカルテットが示す最も重要な教訓は、データを分析する際には、要約された統計値だけに頼るのではなく、必ずデータを視覚化してその形状や分布を確認しなければならない、ということである。平均値や相関係数といった指標は、データの全体像を把握する上で非常に便利だが、同時にデータの多様な側面をそぎ落としてしまう。データの分布が歪んでいたり、外れ値が存在したり、非線形な関係があったりする場合、これらの指標はデータの実態を誤って表現する可能性がある。
この教訓は、システムエンジニアの業務にも直接的に応用できる。例えば、システムの平均応答時間という指標だけを見て「パフォーマンスは安定している」と判断するのは危険である。実際には、ほとんどの時間は高速に応答しているが、特定の条件下で極端な遅延(外れ値)が発生しているかもしれない。これをグラフ化すればスパイクとして即座に発見できるが、平均値だけでは見過ごされてしまう。同様に、エラー発生率という数値だけではなく、エラーがどの時間帯に、どの機能で集中して発生しているのかを可視化することで、問題の根本原因に効率的にたどり着くことができる。データを扱うすべてのエンジニアは、数値を疑い、その背後にある生のデータの姿を視覚的に確認する習慣を持つことが、正確な状況把握と適切な意思決定のために不可欠である。