プロクラシスト

今日の寄り道 明日の近道

advent-calendar-2017

知識0だった僕がデータ分析をこれまでどう学び、これからどう使うのか

長かったデータ分析ガチ勉強カレンダーも最終日*1。 自分のこれまで歩いてきた道を軽く振り返ったあと、自分が思う機械学習/データ分析のあり方について書き連ねたいと思う。あくまで一つの価値観として楽しんでもらえればと思います。 データ分析って何?状…

Pythonでゼロから機械学習/データ分析を学ぶためのサイトマップ

データ分析ガチ勉強アドベントカレンダー 24日目。 当サイトでも、Pythonを使ったデータ分析や機械学習について、勉強しながらそれをアウトプットとして出すと言うかたちで、何個も記事を書いてきました。 記事数で言えば50とかそのくらいあるような気がしま…

【Day-23】機械学習で使う"距離"や"空間"をまとめてみた

データ分析ガチ勉強アドベントカレンダー 23日目。 ここまでデータをどういう風に処理したり、どういうタスクをこなしていくかについて勉強してきたが、 一度基礎的な事項に戻ってみたいと思う。基礎だから簡単というわけではない。基礎だからこそ難しく、ま…

【Day-22】データ分析技術で仮想通貨の暴騰・暴落を捉えられるか

データ分析ガチ勉強アドベントカレンダー 22日目。 今日は、データ分析の練習も兼ねて、ちょっとした実験!! 対象は最近話題の仮想通貨。 乱高下の激しい通貨に対して、データ分析技術がどこまで通用するかと言うのを検証してみる。 使う技術 : Change Find…

【Day-21】統計的異常検知/変化検知の基本をまとめる

データ分析ガチ勉強アドベントカレンダー 21日目。 世の中のデータ分析のニーズは、何らかの異常を発見したいというところに多くある。 機械で言えば故障を検知する、マーケティングで言えば流行を発見する、株価で言えば相場変動を見つける... 普通と違うこ…

【Day-20】PyTorchを超絶使いやすくするsklearnラッパー『skorch』で快適ディープラーニング

データ分析ガチ勉強アドベントカレンダー 20日目。 Skorchとは インストール 使い方 データ読み込みはsklearn 学習ネットワークの構築はPyTorch skorchでwrap sklearnとのその他連携 pipeline Grid search MNIST 結果 まとめ Skorchとは PyTorchのsklearnラ…

【Day-19】『PyTorch入門』 使い方&Tensorflow, Keras等との違いとは?

データ分析ガチ勉強アドベントカレンダー 19日目。 2日間、Kerasに触れてみましたが、最近はPyTorchがディープラーニング系ライブラリでは良いという話も聞きます。 とりあえずTutorialを触りながら使ってみて、自分が疑問に思ったことをまとめていくスタイ…

【Day-18】時系列のディープラーニング、RNNのまとめとKeras実装

データ分析ガチ勉強アドベントカレンダー 18日目。 Kerasの使い方を復習したところで、今回は時系列データを取り扱ってみようと思います。 時系列を取り扱うのにもディープラーニングは用いられていて、RNN(Recurrent Neural Net)が主流。 今回は、RNNについ…

【Day-17】DeepLearning系ライブラリ、『Keras』の使い方まとめ(2.x対応版)

【最終更新 : 2017.12.17】 ※以前書いた記事がObsoleteになったため、2.xできちんと動くように書き直しました。 データ分析ガチ勉強アドベントカレンダー 17日目。 16日目に、1からニューラルネットを書きました。 それはそれでデータの流れだとか、活性化関…

【Day-16】ニューラルネットを0から作り、仕組みを基礎から理解する

データ分析ガチ勉強アドベントカレンダー 16日目。 今日からは少しディープラーニングの勉強。 ここ数年間、深層学習用ライブラリも猛烈に整備され、誰でも簡単にディープラーニングを使えるようになりました。 その一方で、整備されすぎて、魔法の箱だとい…

【Day-15】ベイズ的最適化で最強のゴールデンクロスを見つける

データ分析ガチ勉強アドベントカレンダー 15日目。 最強のゴールデンクロス、それは最も儲かるように移動平均線を引いたときの交点 である。 一説には、テクニカル分析は、チャートにすべての情報が詰まっているという前提があるそうですね。 ということは、…

【Day-14】株価や仮想通貨で使える、5つのテクニカル分析を解説&Pythonで実装してみた

データ分析ガチ勉強アドベントカレンダー 14日目。 時系列データでまず思いつくのは、株価のチャートですよね。 また、最近はやっている仮想通貨。私も最近coincheckに入金しました。 ビットコイン取引所 "coincheck" やっぱ、実際にお金が絡むとちゃんと勉…

【Day-13】『Prophet入門』簡単に高精度を実現するFacebook謹製の時系列予測ライブラリ

データ分析ガチ勉強アドベントカレンダー 13日目。 仮想通貨がはやり始めて、チャートを見るようになった人も多いのではないでしょうか? チャートから予測をしたい という思いを持ちつつも、結構ハードルの高いのが時系列予測。 それをできるだけ簡単にでき…

【Day-12】時系列分析の良リソースまとめ&基礎チュートリアル

データ分析ガチ勉強アドベントカレンダー 12日目。 今までは、時間に依存しないデータについて取り扱ってきました。 しかし、世の中のデータは時間に依存したデータも多いのが事実です。 時間に依存しないデータは、その分各データを独立に扱うことができま…

【Day-11】機械学習のチートシートを眺めたり、比べてみたり

データ分析ガチ勉強アドベントカレンダー 11日目。 モデルを選び、試行錯誤しながら作っていく、そんな過程まで勉強してきました。 実装寄りの内容になったので、ここで一度機械学習界隈を俯瞰してみようと思いまして、調べると出てくる有名なチートシート M…

【Day-10】Cross Validationとパラメータサーチでモデルの調整

データ分析ガチ勉強アドベントカレンダー 10日目。 データを集め、前処理を行い、学習をする。 どういう学習器が良いのかの評価基準 の勉強までできた。でも、データがあって、評価基準がわかっていても、どうやって評価すればいいかについてはまだあまり触…

【Day-9】機械学習で使う指標まとめ(実装編)

データ分析ガチ勉強アドベントカレンダー 9日目。 データを学習器に入れるところまではできた。後は学習させるだけ! だが、学習器といってもたくさんある。どういう学習器を選べばよいのだろうか。 そのためにはモデルをうまく評価するしくみを作らなければ…

【Day-8】絶望的なデータを前処理で何とかする。(pandas/sklearn)

データ分析ガチ勉強アドベントカレンダー 8日目。 Day-7の記事で、データを取り扱えるようになりました。 しかし、データがいつもきれいで美しいものだとは限りません。なかには絶望的なデータもたくさんあります。 機械学習等の学習器に投げ入れるには、も…

【Day-7】sklearnで機械学習用データの作り方/使い方をまとめる(sklearn.datasets)

データ分析ガチ勉強アドベントカレンダー7日目。 今日からはscikit-learnを取り扱う。 機械学習の主要ライブラリであるscikit-learn(sklearn)。機械学習のイメージをつかみ練習するにはコレが一番よいのではないかと思われる。 今日はデータを作って、(必要…

【Day-6】ゼロからJupyterの達人に!使い方の総まとめ。

こんにちは、ほけきよです。 データ分析ガチ勉強アドベントカレンダー6日目。 当ブログもJupyterに関するメモをたくさん記してきました。 今回は保存版ということで、Jupyterの基礎事項から、ちょっとしたTipsなどを総まとめしておきます。この記事を読めばJ…

【Day-5】Jupyterでできる!イケてるプレゼンスライドの作り方

こんにちは、ほけきよです。 MSのツールの中でも、パワポだけは優れたツールだと思っているんですよ。 けれど、せっかく技術者ならば、そこら辺も新しいツールを使ってみたいものです。 最近エンジニア界隈では、reveal.jsを使ってHTMLでプレゼン資料を作っ…

【Day-4】都道府県のデータをいじりながら、pandasを学ぶ

データ分析ガチ勉強アドベントカレンダー4日目。 今日はpandasを取り扱う。 機械学習系の本にも、numpy、scipy, matplotlibの使い方は載っていても、pandasを載せている本って意外と少ない。 けれど、実際numpyの次くらいによく使う。データを取り扱ったり、…

【Day-3】知らないコトがいっぱい...!『numpy 100 exercise』を全部やってみる (上級編)

データ分析ガチ勉強アドベントカレンダー3日目。 今日も引き続き、100 numpy exercise をしていく。 github.com 今日は上級編。初級、中級でさえかなり難しかったので、不安ではあるが...とりあえずやっていく! 【Day-2】numpyの勉強に『100 numpy exercise…

【Day-2】numpyの勉強に『100 numpy exercise』を全部やってみる(初級・中級編)

データ分析ガチ勉強アドベントカレンダー2日目。 数式を扱うことが多くなるので、numpyの復習をしたいと思う。使ったのは100 numpy exercise github.com numpyを用いるさまざまな問題が用意されていて、大変勉強になる。 今回は自分の実力を試すために、自分…

【Day-1】データ分析/機械学習を行うために知っておきたいことを列挙する

データ分析ガチ勉強アドベントカレンダー一日目。 まずは指針をということで、データ分析をはじめるにあたって勉強しておきたいことと、そのリソースをまとめる。言語はPythonを想定。 興味領域が偏っている場合があるのであしからず こんなの面白いよってい…

『データ分析勉強アドベントカレンダー、全部俺』を、します。

こんにちは、ほけきよです。 明日から師走ですね。一年がたつのも早いものです。 ところで皆さんは「アドベントカレンダー」なるものを知っていますか? 最近ブログをサボり気味だったこともあり、またデータ分析の勉強をしたいなとも思っていて、 一人デー…

PROCRASIST