2017-09-01から1ヶ月間の記事一覧

ROC曲線や累積反応曲線について

前回の記事で、モデルの性能評価として期待利益という値を使った。 データサイエンスの基本コンセプトのひとつに「モデルの性能の比較対象となる適切な基準は何であるかを考察することは重要である」というものがあるらしい。ビジネスとしては予想精度の最大…

混同行列、期待利益からのモデルの評価について

その2で終わるはずだったが続いた。 期待値としての評価をキノコの分類モデルで試して見た。コードはここ。 github.com 前回3つのモデルを作成し、性能の計測については損失関数や以下のような精度を使って評価した。 精度は分類器の性能を1つの値で表すこ…

Kaggleのデータセットを使って特徴量を観察する その2

前回の続き 特徴量の選択を終えたのでキノコが食用か毒ありかの判別を行うモデルを構築していく コードはここ github.com モデリング 作成したモデルは Tensorflowを使ったNNのロジスティック回帰モデル 決定木を用いたツリーのモデル 流行りのXGboostを用い…

Kaggleのデータセットを使って特徴量を観察する その1

最近、特徴量の観察、選択がとても大事だと実感した。 それもあって深層学習の勉強とは別に、データサイエンスの勉強もしようと思ってこの本を読んでいる。 www.amazon.co.jp まだ7章ほどだけどもためになることが結構書いてあっていい。自分の言語処理能力…

機械学習よりのインターンに行ってきた感想と特徴量について

タイトル通り機械学習よりのインターンに行ってきた。理由は3年生だからそろそろインターンの体験を積みたいというのが一番でかかったりする。 どこのインターンに行ったのかは言えません。東京湾に沈められますからね。 オフィスは綺麗でリラックマのひよこ…

外れ値検出、OneClassSVMについて

統計データにはよく外れ値なるものが含まれていることが多いそう。 外れ値とはデータの分布において他の観測値から大きく外れた値のことで、異常値とやらもあるけどそれとは異なるっぽい 外れ値検出、処理することは機械学習を行う上で学習の妨げをなくす大…

SPPnetについてとTensorflowでの畳み込みフィルターの観察

前回の続き SPPnetを利用した物体検出では入力画像から1回だけ畳み込みの操作を行うことで、大幅な計算時間の削減が可能ということで感動した。 他のサイトの情報や、論文の内容を読み直したりして以下のような手順でSPPnetによる物体検出器を作成しているの…