こんにちは、ほけきよです。
先日こんな本を読みました。
- 作者: ダレル・ハフ
- 出版社/メーカー: 講談社
- 発売日: 2016/10/21
- メディア: Kindle版
- この商品を含むブログを見る
50年前から名著と呼ばれている本です。正直そこまで新しい知識が得られるなんてことはありませんでした。 やっぱり私は数式が出てこないとピンとこない人間のようです。
しかし、統計を知らない人、数式アレルギーの人にはおすすめです。
- データのサンプルは偏ってないか注意しようね
- いつも使われている言葉(平均とか)がどういう意味か見つめ直そうね
- グラフィカルな印象操作には注意しようね
とかですね。それを数式を使わず丁寧に説明してくれるので、一度読んで見てもいいのでは、と思います。
今日は、その中でグラフィカルな印象操作について掘り下げたいと思います。 この本を読んだ正直な感想は"うーん、物足りない!!“でした。なので、普段データに慣れ親しんでいる研究者が、あなたたちの印象を全力で操作します。
激増しているように騙す
まずは、この二つのグラフを見比べてみましょうか。
さて、どちらが急成長しているように見えますか? 圧倒的に赤色のほうが急成長しているようです。 しかし、赤と青のグラフは同じ数値のグラフです。 違うのはy軸の範囲です。
このように、y軸の始まる位置をちょこっと変えるだけで、あたかも圧倒的成長をしているように見えるのです。
同じことが棒グラフにも出来ます。むしろ棒グラフのほうが顕著に差が見えるかもしれません。
だまされないようにするためには、y軸に注意しましょう。
伸び悩んでいるように騙す。
グラフ
まずはこのグラフをご覧ください このグラフから伸び悩みはじめているような印象を受けると思います。
けれど、実際の所どうなんでしょう。
本当は?
これも同じでy軸に注目してみてください。[:tex:10^{0}, 10^{1}]などとなっていると思います。 これは、y軸が数字の桁数を見ているということです。専門用語で言うと指数オーダーで見ているものです。実際の数値でみたものが下図右です。
大きな数を扱うときに対数スケールにするとうまく特徴が出てくることも研究の世界ではよくあります*1 。これを逆手に取ることもできるよってことをちょっといいたかったのです。グラフの縦軸には注意しましょうね。
ランダムだと騙す
グラフ
まずはこの散布図をご覧ください
訳のわからないランダム模様に見えますね。実際のところ、どうなんでしょう?
本当は?
読み解いていきましょう。とりあえず、各点のつながりが全くわからないので、繋いでみます。 点の前後の繋がりを見るにはつなぐのが一番手っ取り早いですからね。すると下図左のような形が現れました。拡大したものが右図です。
結果、このランダムに見えたグラフはこのような綺麗なサインカーブだったことがわかります。
特に時系列データなどは、ランダムかどうか判断する前に、なんかしらの関係がないか、いろいろと試してみましょう*2
とりあえず線を繋いで見るのは手っ取り早いので、オススメです。
性能が悪いものをいいように騙す(Part 1)
グラフ
まずはこちらの2つのグラフの比較をご覧ください。 縦軸が何かの性能を示していて、低いほど良いと言うことにします。
- 横軸 : タスクの数
- 縦軸 : 全タスクを終えるのにかかる時間
とかをイメージしてもらえるといいかもしれません。
どっちが性能がいいように思いますか?graph2のほうが良さげ。と思う人も多いと思います。
本当は?
読み解いていきましょう。
とりあえず、さっき学んだ対数スケールに縦軸を変換してみます。
ここからわかるのは、上のグラフは対数スケールでは頭打ちになりそうなのに対し、下は一定で伸び続けているということです。つまり、後々、graph2が逆転するのではないかということがわかるのです。
もう少し伸ばしたものが下図右です。graph2のほうが急激に増加していっているのがわかります。
性能比較のグラフなどでは、このようにちょうどいいところで実験を打ち切っているものも多くありません。常に疑いの目を持ちましょう。
指数的な伸びかどうかを判断するには対数スケールで直線になっているかどうかを見ることをおすすめします。
性能が悪いものをいいように騙す(Part 2)
最後に、難問を。
グラフ
まずはこちらの2つのグラフの比較をご覧ください。グラフの見方はPart1と同じです。
どう見たってGraph1のほうがヤバそうですよね。実際、どうなんでしょう。
本当は?
読み解いていきましょう。 指数的な伸びかどうかを判断するポイント、もう一つあります。それは、差分を見るということです。*3 指数的なグラフは、差分も指数的な伸びなのです!というわけで、このグラフの差分を取ってみましょう。一つ前の点との差をとったものがコチラ。
左はわかりにくいですが、y軸の範囲を絞ってみてみると。どうやらgraph1は直線で、graph2は指数的な伸びであることがわかります。 つまり、いずれgraph2がgraph1を抜く可能性があるということです。実際に、もう少しx軸を伸ばして見てみましょう。
やっぱりgraph2のほうがgraph1を抜きましたね。
指数を見破る方法として
- 対数スケールにしてみる
- 差分をとる
がポイントです!また、グラフを見るときは途中で打ち切られている可能性に注意しましょう。
最後に
いかがでしたか?グラフの見方を変えるだけで、かなり印象が変わっていることに気づいたはずです。 広告や質があんまりよくない論文にはこういうテクニック(?)が使われたりするので、みなさんはこのような印象操作に騙されることのなき様、正しいグラフリテラシーを持ちましょう。
最後に、私が使っている印象操作法を一つ。さっきまでのグラフ、かたっ苦しいですよね。なので、私のブログでは少しでも親しみやすいように↓の様な漫画風のグラフを使うことが多いです。
作り方はこちら
このくらいなら許されると思います。笑
みなさんも、是非是非使ってみてください。ではではっ