はじめに
既に1年以上前となりますが、私はDMBOK2 第2章「データ倫理」に関して、このブログに投稿したことがあります。そこで「データで騙した例、騙された例など機会があれば紹介したい」という主旨のことを最後に書きました。今回はその例をいくつか紹介してみたいと思います。
母数に注意
現在の新型コロナの感染者数は若年層が多いと言われていますが、第一波のころには「どの年代でも平均的に感染している」という報道がありました。その頃に提供されたデータが以下となります(リンク先を参考にグラフは独自に作成)。
確かにどの年代でも平均しているように見えますが、もともと東京都は20代の人口が少ないはずです。そこで10万人あたりの感染者数にしてみると以下のようになります(独自に集計)。
こう見ると、明らかに若年層の方が感染者数が多いように見えます。なので「どの年代も平均して~」という報道には疑問も感じます。
実は「10万人あたり~」を棒グラフにしたのは、円グラフよりも差が際立つからであり、このようにグラフを使い分けることもデータを扱う上でのテクニックであり、”騙すこと”ともいえます。
コロナの感染者数はあくまでも例であり、例えば国ごとのオリンピックでのメダル数ランキングも「人口当たり」にすると、かなり違う見え方になるでしょう。また、出身都道府県別総理大臣数は山口県が東京都の次に多いらしいですが、人口あたりにすると山口県が圧倒的に多くなります。
このように、母数を意識した観点も忘れてはならないでしょう。
単位に注意
Cloud時代になりメインフレームの需要は減退していると言われています。IT系の記事でこれを証明するべく「メインフレームの出荷台数推移」なるもが紹介され、出荷台数が激減しているということが示されています。
しかし、メインフレームは1台の処理能力は飛躍的に向上しており、20台以上のメインフレームを1台に集約するような事例もあります。単純に出荷台数で評価することが正しいかは疑問があります。
例えば、あるベンダーでは「メインフレームの出荷処理性能」が10年間で3倍以上になっていることを公表しています。これは、価格性能比も3倍以上になっているでしょうから、素直に、メインフレームがまだ成長している、という評価はできないでしょう。
「出荷台数」「出荷処理能力」「出荷額」など単位が異なると評価が変わります。
この例にかかわらず、データを扱う際にその単位にも気を付けた方が良いでしょう。「xx茶は2lボトルより、500mlの方が売れている」というような場合も、それが、本数比較なのか、価格比較なのか、容量比較なのか、ハッキリしないと評価が難しいですね。
その他の例
その他にもたくさん例があるのですが、長くなるので、箇条書きで紹介します。
◇ 母集団特性に注意・・「部門別TOEIC点数ランキング」で「国際部が1位」
→国際部ですから、当然の結果で意味のない評価とも言えます。
◇ 不要な過去情報・・「これまでxxx円を投資したので、今更このプロジェクトはやめられない」「せっかく30分待ったから、もうちょっとタクシーを待ってみよう」→いずれも過去情報は今後の判断に影響しないはずです。
◇ 不要な追加情報・・最高気温の統計分析に「湿度情報」→ 正確な分析に影響?
◇ 無意味な平均・・「平均貯蓄額」→ 一部の資産家の影響大
◇ 言葉の定義・・「国別暴力事件の発生件数」・・暴力事件の定義が国により異なる
この話題、いくらでもお話できそうですが、今回はここまでにさせていただきます。興味のある方は是非DMBOK2 第2章を読んでください。
コメント