Excelのヒストグラムで苦労している人はTableauを使うとラクになれます
みなさん、ヒストグラムご存知ですか?
ヒストグラムといえば、データの分布状況を知るためのグラフです。
データ分析を行う際「データがどのように分布しているのか」を知ることは大変重要ですので、日常的にみなさん使っていると思います。
データ分析の際にMicrosoftのOffice製品から始める方は多いかと思いますが、Excelのヒストグラム機能はあまり便利ではありません。そんなみなさんにオススメするのがTableauのヒストグラム作成機能です。
最初に結論
Tableauだとヒストグラムは2クリックで作成できます。
そして、大変自由度も高く、区間の変更もリアルタイムにできて良い事ずくめです!
初心に戻って:まずはヒストグラムの考え方から
ヒストグラムは度数分布図とも呼ばれますが、データの幅に何個データがあるか、というのを数えたものをグラフにすることで作成します。
例として1~10のランダムの数字が20個あったとします。
調査したいデータ=4、2、7、5、7、9、3、7、1、4、10、5、6、5、10、2、1、3、6
これに対してデータ区間の階級の幅を2として、データ区間を以下の通りとします。
データ区間:1~2、3~4、5~6、7~8、9~10
それぞれの幅に何個データがあるかをカウントすると以下のような表を作ることができます(度数分布表)。
データ区間 | 出現回数 |
---|---|
1~2 | 4 |
3~4 | 4 |
5~6 | 5 |
7~8 | 3 |
9~10 | 3 |
これをグラフ化したものがヒストグラムです。
ヒストグラムの作り方をまとめると、データ区間を決めて、それぞれの階級にデータが何個あるか集計し、最後にグラフを書くという手順になります。つまり、一度集計作業が必要になりますし、そもそもデータ区間を決めるのは元のデータを良く知らないと難しいです。
おさらい:Excelでのヒストグラム作成
Excelでは、2段階の作業を経てヒストグラムを作ることができます。手順としては以下の通りです。
- データ区間の決定
- 集計・グラフ化(データ分析アドイン)
1.データ区間の決定
まず、データの中身を知らないのであれば、最小値、最大値を調べます(ExcelならMaxやMinという関数でそれぞれ取得できます)。
次に、階級の幅を決めてデータ区間を作成します(縦に数字を並べるだけですが、どのように幅を決めるのか、分布状況を知る前に決めなければいけません)。細かすぎても大きすぎてもデータの傾向がわからないのが難しいところです(区間を決める目安としていくつか公式があります)。
先程の例であれば、データの中身を知っているので、縦に2、4、6、8,10と書くだけです(が、中身を知らないと、適当にえいやっで決めるか、スタージェスの公式といったものを使って決めます)。
2.集計・グラフ化
データ区間さえ決まればあとはExcelが簡単にやってくれます。ただし、アドインの「分析ツール」をインストールする必要があります。分析ツールの「ヒストグラム」を選択すれば、メニューが開きます。
あとは、「入力範囲」(元データ)、「データ区間」と出力先やオプションを選んでOKを押せば集計とグラフ化まで進みます。
こんな感じでできあがります。
データ区間が気に入らなければ再度データ区間の決定を行い、再度分析ツールを実行する必要があります。つまり、作り直しです。
Tableauでヒストグラムを作るには?
Tableauなら非常に簡単です。何も悩まず、迷わず、2クリック。
- ヒストグラムを作りたい項目を選択
- 表示形式からヒストグラムを選択
結果は・・・
なんとなく階級はいい感じに作ってくれます。
データ区間が気に入らなければ設定を変えるだけですぐに変更できます。
手順としては、先程新規に作成されたビンを右クリックして編集を選択。出てきたウィンドウでビンのサイズを変更するだけです。
例としてビンのサイズを「30,000」にしてみました。
まとめ
- Tableauだとヒストグラムの作成はたったの2クリック。データ区間の変更も設定変更すればすぐに反映
- Excelだとデータ区間を決めて、データ分析ツールでグラフ化。データ区間の変更をするには最初から作り直し
ヒストグラムを多用する方はTableauを使うと圧倒的に幸せになれます。
Tableauにおけるヒストグラム作成について詳細な記事もありますので、ご覧ください。