Kaggle Titanicやってみる - A bolt out of the blue

Kaggleを知っているだろうか

最近流行りのデータサイエンスを、世界的な競技大会にしたwebサービスだ。

これに参加することにした。

データサイエンスを全て自前で行うのは、かなり技術的ハードルが高い。というのも、

最低限これらが必要になるからだ。

けれど、Kaggleに参加するだけなら、これを全部やる必要はない。

Kaggleがデータを持っているし、Kernelを使えば、4, 5が不要になる。

この記事に倣って、KernelからTitanicを解いてみる。

Kaggleへの登録を済ませたら、Kernelは @karaage. 氏の記事を見れば簡単に使えると思う。

基本的にJupyter notebookと同じ使い方ができる。

Kernelを使う際に押さえておくべきポイントは、

1. 使える言語はR, Pythonだけ。

2. ワークスペースが与えられ、そこで作業が完結する。

3. 予測データの提出（"Submit to Competition"）はkernelを公開(publish)した後に行える（参考：Submitting From A Kernel | Kaggle）。

このくらいか。

上記記事を参考に、最も単純な決定木を実装する（titanic test | Kernel）。

全くチューニングなど行わずとも、約70%の正答率だった（なお 9876位 / 10556チーム中）。

こんな簡単に予測ができるのはやっぱり面白い。

次からは順位を（正解率を）どうやって上げていくのか考えてみよう。