Tableau MOM #2 2022/9/19 American Business Formations
第2回目の投稿です。
今回もTableauを使用してMakeover Mondayにトライした内容を記載します。
テーマはこちらです!
このテーマはこちらに挑戦します!
Ranked: American Business Formations
データはこちら
2022/W38: American Business Formations - dataset by makeovermonday | data.world
データの内容
month | category | state abbr | state | Business Applications from Corporations | Business Applications |
2005/1/7 | Transportation and Warehousing | US | U.S. Total | 5852 | 19769 |
2007/1/2 | Health Care and Social Assistance | US | U.S. Total | 8505 | 29226 |
2014/1/9 | Information | US | U.S. Total | 2142 | 8624 |
2012/1/3 | Professional Services | US | U.S. Total | 17239 | 74361 |
2006/1/12 | Agriculture | US | U.S. Total | 1313 | 5751 |
2017/1/10 | Total for All NAICS | SD | South Dakota | 89 | 1377 |
2012/1/2 | Finance and Insurance | US | U.S. Total | 3786 | 21082 |
2013/1/9 | Total for All NAICS | WA | Washington | 1096 | 7105 |
2005/1/9 | Construction | US | U.S. Total | 19361 | 54289 |
2019/1/3 | Total for All NAICS | ID | Idaho | 277 | 4023 |
今回のデータもシンプルそうですが、2点問題ありました。
問題1:Categoryとstateの関係が2パターンある
いざ内容を確認してみると、Catagoryとstateの関係が大きく2つに分かれており、全てのデータを同時に分析することが難しいようなデータであると感じました。これをtableauで分かりやすく確認すると以下の通りです。
縦軸にstate、横軸にCategoryを並べて、データがある部分だけに色付けをしております。そうすると、stateの「U.S. Total」には複数のカテゴリにデータが入っているが、その他のstateのデータは、Categoryが「Total for ALL NAICS」にしかデータがないことがわかります。
以上の理由から、データを可視化して分析する際には、以下の2つのユースケースに分けて考える必要があると結論付けました。
- アメリカ合計値をカテゴリ毎に分析する(stateが「U.S. Total」の場合)
- 各州のCategory値の合計の分析
問題2:日付データ(month)の値が日本式の表記でない
この内容は正確にはすぐに気が付いたわけではなく時系列のグラフを作成する段階で気が付きました。日付の表記は日本とアメリカで違っているようでした。日本では、年/月/日と表記されているのに対して、アメリカでは、年/日/月の順番に並んでいるようでした。
これを考慮せずに時系列グラフにしようとすると以下のようになります。
月が1月しかなく、日は1~12までしかないデータとなり、明らかにばぐっております。
データの可視化検討
Categoryとstateの関係は凡そわかったので、次に時系列の傾向を把握して可視化を検討します。適当なディメンジョンで時系列をプロットすると下図のように右肩上がりのグラフとなりました。この傾向はディメンジョンを変更しても同じようになるため、データとして分散などを見ることよりも、過去のデータに対して、どの程度上昇しているかが重要であり、また、今年度はどこまで上がってきているかが重要であると考えました。
分析するディメンジョンが限られているのであれば、それらを全てグラフ化することも可能ですが、stateは数が多いので、それは現実的ではありません。
そこで以下の方針で可視化を実施しました。
- CategoryとStateの一覧で凡その上昇傾向と今年の位置を確認する
- 前年度までの時系列(年毎)と今年度の時系列(月毎)を分析する
「2.」の方は比較的簡単ですが、「1.」をどうするかがポイントです。
色々悩んだ結果以下の内容としました。
ポイント
- 最大値と最小値をリファレンスバンドで表現
- 各年の合計値を〇の大きさと色で表現(新しい年ほど大きく色が濃い)
- 昨年度の値が黄色でプロット
- 今年の値を赤いラインで表現
- 分析軸のメインをCategoryとstateで切り替えられる
以上の内容により、可視化するディメンジョン毎の全体像をつかみつつ、気になるものをマウスオンすることで、詳細に分析可能だと考えました。
(作業時間2.5H)
リンクはこちら