データエンジニア - しき - のデータ分析についてあれこれ

データサイエンスを勉強している - しき - のブログです。

データ分析超々入門①

はじめまして。しきです。

データ分析をやってみたいけどなんだか難しそう。。。

どこから手を付けたらいいのかわからない。。。

数学が得意な人じゃないとできないんでしょ。。。?

なんて思っている人はいるんじゃないでしょうか。

実は、データ分析ってみんな既にやった事があるはずなのです。

ただ、とてつもなく奥が深い世界なのもまた事実。

なので今回は、身近な家計簿を例にして集計表を使ったデータ分析について解説しようと思います。

この記事を通して、少しでもデータ分析に興味を持ってもらえれば嬉しいです。

目次

  1. データを集める
  2. 問題を定義する
  3. 原因を探す
  4. 改善策を考える
  5. おわりに

データを集める

みなさん家計簿をつけたことはありますか?

一度もやったことがないという人はさすがに少ないのじゃないでしょうか。

自分は、就職してすぐの頃はそれはもう買い物全てを記録する勢いで家計簿をつけていました。 大変だったので3カ月ぐらいでやめてしまいました。(゚Д゚)

では家計簿をつけたいと思った動機は一体何だったのかというと、

収支の流れを把握したかったからです。

何を当たり前のこと言ってるんだこの人は、、、って人!ちょっと待ってください!

ここめちゃくちゃ大事なんです。

収支の流れを把握したければ、収入と支出の金額を正確に知る必要があります。 家計簿をつけることで正確に知ることができると考えたわけです。

これがもし、友達の誕生日プレゼントにいつもいくら使っているか知りたい。 だとしたら収支の流れを知る必要はありません。 下のような情報があれば十分なのです。

名前 性別 金額 平均
福井 幸弘 2,000 3,000
有馬 敬太 3,000 3,000
三木 美貴 4,000 3,000
槇 奈穂 3,000 3,000

ちなみにサンプルデータの"名前"はすごい名前生成器で生成しました。
こんなのあるんですね。

つまり、何が知りたいかによって集めなければならないデータが変わってくるのです。

集めるとはいっても闇雲に集めては仕方ないよねということです。 今回の目的は、収支の流れを把握することとします。

問題を定義する

問題とは

そもそも問題とは何なのでしょうか。 データ分析の世界では、よく理想と現実のギャップという表現で説明されます。

f:id:shiki_sfd:20190914001839j:plain
問題とは

今回は仮に、収支の黒字1万円が理想の状態。
しかし現実は1万円の赤字であるとしています。
この場合、理想と現実の状態に2万円の金額の差が生じているわけです。
これを「問題」としています。

問題の定義

じゃあ問題の定義とはどうすればいいのでしょうか。

まずは理想の状態を定義することから始まります。
先ほどの例でいうと、「収支の黒字1万円」のことです。
この場合のコツはできるだけ具体的に数字で表せるような理想の状態を定義することです。

理想の状態が定義できたら、理想に対応する現実の状態を確認します。
先ほどの例でいうと、「収支の赤字1万円」のことです。

先ほどの「データを集める」の段階で集めてきたデータを使って現実の状態を確認していくことになります。

原因を探す

一カ月の間頑張って家計簿をつけたアナタは収支が以下のようになっていることがわかりました。

名前 金額
収入 20,000
支出 21,000

何ということでしょう。収入20万円に対して支出が21万円あります。
つまり赤字が1万円です。
では、先ほど定義した問題の原因を探っていきます。

f:id:shiki_sfd:20190914001839j:plain
問題とは

まず、収入と支出どちらに原因があるかを考えます。

今回は悲しいですが仮に、
収入は当分増える目途が立ってないから理想を実現しようとすれば支出を抑えるしかないとします。

となれば支出が原因となります。

では支出の21万円はどういう構成になっているのでしょうか。

名前 金額
収入 200,000
支出 210,000
├家賃 50,000
├通信・高熱費 20,000
├食費 10,000
├遊興費 100,000
├交通費 20,000
└書籍代 10,000

支出を構成している要素を詳しく見てみるとこのようになっていました。
すると、遊興費に一番金額を使っていることがわかりました。

ではさらに遊興費を詳しく見てみることにします。

名前 金額
飲み会 70,000
買い物 20,000
お出かけ 10,000

すると、飲み会に一番お金を使っていることがわかりました。
では飲み会を詳しく見てみます。

名前 金額
XX/02(金) 9,000
XX/03(土) 4,000
XX/09(金) 9,000
XX/10(土) 4,000
XX/11(日) 4,000
XX/16(金) 11,000
XX/18(日) 4,000
XX/23(金) 10,000
XX/25(日) 4,000
XX/30(金) 11,000

すると、集計した月は計10日飲みに行っていたことがわかりました。
そうです。原因は飲み会に行きすぎです。 まぁこんな極端な例であれば分析するまでもなく肌感覚でわかりそうですけどね。

ちなみに、原因と目される項目を掘り下げて分析していくことをドリルダウンなんて言ったりもします。

改善策を考える

ここまでで。原因が飲み会に行きすぎだということがわかりました。 では理想を実現するためには飲み会の費用を7万円から5万円にする必要があります。

サンプルデータでは、10日飲みに行っており計7万円使っています。
つまり、1回飲みに行くと平均して7千円使うと考えることができます。

$$ 70,000 \div 10 = 7,000 $$

ということは、3回飲みに行く回数を減らせば支出を2万千円減らせる計算です。

$$ 7,000 \times 3 = 21,000 $$

つまり、月10回行っている飲み会を月7回に減らすことで理想を実現できるのではないかと考えます。

改善策を考えたら実際に行動に移してみて理想が実現したかどうかを確認します。

実現しなければまた問題の定義に戻ります。

おわりに

いかがだったでしょうか。
これは普段皆さんが行っていることを細かいステップに分割しただけで難しいことはしていないはずです。
データ分析には難しい手法がたくさんあるので混乱してしまいますが、基本は難しくありません。

これで、少しでもデータ分析に興味を持ってもらえれば嬉しいです。