A bolt out of the blue

競プロ、その他勉強したことなど

Kaggle Titanicやってみる

Kaggle

Kaggleを知っているだろうか

Kaggle: Your Home for Data Science

 

最近流行りのデータサイエンスを、世界的な競技大会にしたwebサービスだ。

 

これに参加することにした。

 

チュートリアル

データサイエンスを全て自前で行うのは、かなり技術的ハードルが高い。というのも、

  1. データ収集の方法
  2. 集めたデータを処理する技術
  3. 統計手法に関する知識と、それをデータに適用する技術
  4. それらを実行する環境
  5. その環境を用意する技術

最低限これらが必要になるからだ。

 

けれど、Kaggleに参加するだけなら、これを全部やる必要はない。

Kaggleがデータを持っているし、Kernelを使えば、4, 5が不要になる。

karaage.hatenadiary.jp

 

 

この記事に倣って、KernelからTitanicを解いてみる。

 

Kernel

Kaggleへの登録を済ませたら、Kernelは @karaage. 氏の記事を見れば簡単に使えると思う。

 

基本的にJupyter notebookと同じ使い方ができる。

 

Kernelを使う際に押さえておくべきポイントは、

1. 使える言語はR, Pythonだけ。

2. ワークスペースが与えられ、そこで作業が完結する。

3. 予測データの提出("Submit to Competition")はkernelを公開(publish)した後に行える(参考:Submitting From A Kernel | Kaggle)。

 

このくらいか。

 

写経とその結果

 

参考:【Kaggle初心者入門編】タイタニック号で生き残るのは誰?

 

上記記事を参考に、最も単純な決定木を実装する(titanic test | Kernel)。

 

全くチューニングなど行わずとも、約70%の正答率だった(なお 9876位 / 10556チーム中)。

 

こんな簡単に予測ができるのはやっぱり面白い。

 

次からは順位を(正解率を)どうやって上げていくのか考えてみよう。