ランダムの森

20代エンジニアです。プログラミングについて主に書いてます。

ジーズシアトルのプログラミングキャンプ全編

とても久々の投稿です、実に半年以上ぶり。 2020年1月に1ヶ月間シアトルで開催されたプログラミングキャンプに参加してiOS(swift)の勉強をしてきました! (コンピュータミュージアム@シアトル)キャンプを開校したのは東京をベースにしたジーズアカデミー(以下…

Rで機械学習モデルを構築する方法

個人的にはpythonが得意なのですが、Rの復習も兼ねて簡単にデータから機械学習を構築するまでの流れを追ってみました。 機械学習初学者やpython使いだけどRを勉強したいという方の参考になれば幸いです。 (Kaggleのカーネルを参考にしています。) データ確認…

herokuのPostgresSQLをNode.jsで触る方法

herokuのPostgreSQLを使ってデータの保存読み込みを行ったのでメモ。 最後はNode.jsで書いてますが、途中までは他の言語でも参考になるはずです。一連の流れの説明がなかったので残しておきます。やりたいことは、 heroku のアプリにデータベース(PostgreSQL…

アンサンブル学習、AdaBoost(アダブースト)の数式を分解してみた

機械学習と統計学は切っても切り離せない関係です。が、統計学って数学の一種なので簡単な事象に対しても小難しい式を使いがちですよね。。 私自身物理学科出身なので学生の時にシュレディンガー方程式やらマックスウェル方程式やらを扱っていましたが、数学…

Rのshinyライブラリを使って株価をグラフで見える化する方法

Rのライブラリーの一つ、練習がてらshinyを使って株価即見画面を作って見たのでコードを残しておきます。Rで株価見える化画面。株の銘柄と時期を選択すると、株情報をネットから取得して表示。shiny libraryでここまで作るのに30分。Rだけで書けるので、言語…

scikit-learnのcross_val_scoreを使って交差検証(Cross Validation)をする方法

機械学習モデルを作る時、与えられたデータを全て用いてモデルの学習・精度向上を行うと、そのデータに対してのみ精度の良いモデル(理想のモデルに近づけていない。)が出来上がってしまい、未知のデータに対して適用できなくなってしまいます。そのため通常…

pythonのitertoolsを使ってベクトル各要素の総当たりを行う方法

pythonでAというベクトルとBというベクトルがあった時に、その要素をA vs Bで総当たり的に計算させて最適解を求めたいという時に使えるツールを備忘です。itertoolsというライブラリーを使います。 import itertools 以下のようにベクトルAとベクトルBの各要…

Rのdygraphsを使っていけてるグラフを出力する

dygraphsとはJavaScriptで書かれてかっこいいグラフを描けるライブラリーです。 本当にかっこいいしすぐ作れます。今回はアマゾン株を取ってきます。まずは以下のサイトから、アマゾン株をCSVで落とします。 CSV Historical Prices | Carriage Services, Inc…

scikit-learnのStratifiedShuffleSplitを使ってテストデータを作る方法

マスターデータからトレインデータとテストデータに分ける時、テストデータの目的変数分布がマスターデータの目的変数分布と同じになるように作成する方法の備忘録。kaggleのタイタニックデータを使用。 csvファイルにはtrainと書いているがこのデータが全デ…

pandasでサイズの大きいファイルの読み込み方

kaggleのファイルが大きすぎてpandasでまとめて読み込めなかったのでその時の対処法をメモ。 今回はCSVファイルを使っています。もうこの時点でナンセンスなのかもしれない。笑普通にCSVファイル読み込むときはこんな感じ。 df = pd.read_csv('train.csv') …