統計分析&Pythonの学習開始

私はIT?企業の事業企画のリーダーを担当しています。

最近2つの事業を企画し、立ち上げに奮闘中。

なにぶん、2人で2事業立ち上げというかなり無茶な状況ではあるものの、さらにもう1つ試練がやってきました。

 

昨年サービスインしたWebサービスで収集しているセンサーログデータを活用したデータビジネスを検討するという課題が発生。そのセンサーログは、業界内では稀有なデータのため、社内での注目度も高くなっています。

 

ただ、目的のないデータ収集は失敗するとよく聞きます。(なんとなく集めてから、何に使えるか検討しよう・・・では失敗する)

そのため、私の中での活用の目星はすでに付けており、利用者(訪問者は特定のターゲットのみ)の行動予測モデルの構築が可能かどうかを検証を考えており、その目的に合わせて検討を進められればと思っています。

 

ただ、ここで大きな課題が・・・。社内でデータ解析ができる人間がいないということです。Webサービスを提供しているので、JavaC#などは使える人が多いのですが、RやPython、統計や機械学習の知識については・・・という状況です。

そのため、最終的には外部の会社に協力をお願いして解析を行うことになるかと思いますが、とはいえ完全に任せっきりであったり、結果を判断することもできないようではビジネスの管理体制としては脆弱と言わざるを得ないかと思います。

 

前置き長くなりましたが、こういった経緯で、私自身がもろもろの知識とPythonを使った解析をある程度理解することにし、長い道のりを歩き始めたところです。

 

勝手ながら、諸先輩方のブログなどを参考にさせていただき、

・基本統計(大学の講義で使っているものを拝借)

線形代数学(大学の講義で使っているものを拝借)

・高校レベルの微分積分

あと、実際に触りながらのほうが良いかと思い、

UdemyでPythonの解析と機械学習パターン認識の講義を2つ活用しています。

 

12月の末から始めて、基本統計の書籍は3分の2ほど終わり、Udemyの講義でNumpyとPandasの初歩的なところをやったところです。

正直、統計学については、数式(定理)が多すぎて、覚えきれないので先ずは概念というかイメージをつかむレベルで流しています。(標本分布からどんどん複雑に・・)

 

ベイズについては、予測モデルでベイジアンネットワークなるものが出てくるので、いずれは理解しないといけないようですが、いったん後回しにしています。

 

と、長々と記載しましたが、不定期に更新してまいります。

(ブログ初めてのため、書きなれません・・)