驚くほど簡単な技術系健忘録

驚くほど簡単な技術系健忘録

アプリやWebサービス、RPAを作る上での健忘録を書いていきます。

2020-07-01から1ヶ月間の記事一覧

pandasにexcel出力出力のcsvを読ませる際に文字コードを注意しないといけない

qiita.com 上のブログに書いてあったが csvに、・ハシゴダカ "髙"・タチサキ "崎"等の、windows拡張文字列が混ざっている時には、文字コードをcp932としてやる必要があります。 encoding='cp932' とのことでした。

NumpyとPandas

文字通りNumpyとPandasは異なるもの。 Numpy:行列 Pandas:テータフレーム(データベースに近い) 扱うデータは違ってもこれは結構な違いで、カラム名などの概念の有無などが異なるので結構重要。

Pythonでのデータ分析に触れてみてわかったのはデータを可視化して何が使えるかわかることが一番重要

題名の通りだけど、結局データを見てそれをどううまく使うかと言うのを考えることが非常に大切で、ここができないとコードがかけても意味がない(過学習するだけ)ということがわかった。 ということでデータを見たい形で見ることが結構重要なので参考になるブ…

LASSO回帰分析

最小二乗法で出た過学習を抑えるための手法。 qiita.com 上のQIiitaのサンプルコードの説明はわかりやすかった。 qiita.com こっちは原理について言及があってわかりやすかった。 neuro-educator.com betashort-lab.com ここらへんもわかりやすい。 最終的に…

Kaggleを写経で実践してみる

住宅価格の予想を以下のブログの写経で実行してみました。 ちょっと勉強になった気になるのが写経のいいところ。 yolo-kiyoshi.com

回帰分析の前に対数変換する理由は何?

atarimae.biz このブログに書いてましたが、簡潔に言うと ■対数変換しない場合直線的な予測(比例) ■対数変換する場合弾力性的な予測(増加率が比例) という感じだった。最終的には両方やって決定係数を比べるというのが良いらしい。

Kaggleでデータ分析始めたけどPythonでわからないことが多すぎる件について

データ分析の最初はデータの欠損を調べましょうみたいな感じのブログが多くて、 yolo-kiyoshi.comここのブログを見ながら写経をしていたときに疑問になった点について記述。 #テストデータの欠損状況 test.isnull().sum()[test.isnull().sum()>0].sort_value…