Kaggle Titanicやってみる
Kaggle
Kaggleを知っているだろうか
Kaggle: Your Home for Data Science
最近流行りのデータサイエンスを、世界的な競技大会にしたwebサービスだ。
これに参加することにした。
チュートリアル
データサイエンスを全て自前で行うのは、かなり技術的ハードルが高い。というのも、
- データ収集の方法
- 集めたデータを処理する技術
- 統計手法に関する知識と、それをデータに適用する技術
- それらを実行する環境
- その環境を用意する技術
最低限これらが必要になるからだ。
けれど、Kaggleに参加するだけなら、これを全部やる必要はない。
Kaggleがデータを持っているし、Kernelを使えば、4, 5が不要になる。
この記事に倣って、KernelからTitanicを解いてみる。
Kernel
Kaggleへの登録を済ませたら、Kernelは @karaage. 氏の記事を見れば簡単に使えると思う。
基本的にJupyter notebookと同じ使い方ができる。
Kernelを使う際に押さえておくべきポイントは、
1. 使える言語はR, Pythonだけ。
2. ワークスペースが与えられ、そこで作業が完結する。
3. 予測データの提出("Submit to Competition")はkernelを公開(publish)した後に行える(参考:Submitting From A Kernel | Kaggle)。
このくらいか。
写経とその結果
参考:【Kaggle初心者入門編】タイタニック号で生き残るのは誰?
上記記事を参考に、最も単純な決定木を実装する(titanic test | Kernel)。
全くチューニングなど行わずとも、約70%の正答率だった(なお 9876位 / 10556チーム中)。
こんな簡単に予測ができるのはやっぱり面白い。
次からは順位を(正解率を)どうやって上げていくのか考えてみよう。