驚くほど簡単な技術系健忘録

驚くほど簡単な技術系健忘録

アプリやWebサービス、RPAを作る上での健忘録を書いていきます。

MacのAnacondaにgeopandasをインストールする

MacのAnacondaでgeopandasをインストールしようとしたら結構色々とトラブったので覚書。

まずそもそもの大前提を3つ

--------------------------
1.Anacondaの環境では極力pipを利用せずにパッケージをインストールするようにする
2.WindosにはAnaconda Pronmptなるものも一緒にインストールされるがMacの場合にはインストールされないので通常のターミナルを利用する
3.コマンドは【conda install -c conda-forge 'パッケージ名'】を利用する
※conda-forgeだと結構色々と用意されているのでインストールが問題なくできることが多い
4.本当は新しい仮想環境(env)を別で作ってそこに新しいパッケージを入れたほうが良い。MacだとBaseにそのままインストールできちゃう。(Windowsだとインストールすらできなかった。)
--------------------------

ということでgeopandasのインストールは「ターミナルを開いて」

conda install -c conda-forge geopandas

と打つだけ。

 

実際にうまくインストールできたことは以下のブログのソースコードでテストしました。

qiita.com

※このブログのソースを実行するためには「descartes」のインストールも必要だったので

conda install -c conda-forge descartes

というコマンドも打ちましょう。

 

以下、引用したソースコードです。

import geopandas
import matplotlib.pyplot as plt

world = geopandas.read_file(geopandas.datasets.get_path('naturalearth_lowres'))
print(world.head())
world.plot()
plt.show()

pandasにexcel出力出力のcsvを読ませる際に文字コードを注意しないといけない

qiita.com

上のブログに書いてあったが

csvに、
・ハシゴダカ ""
・タチサキ ""
等の、windows拡張文字列が混ざっている時には文字コードをcp932としてやる必要があります。

encoding='cp932'

とのことでした。

Pythonでのデータ分析に触れてみてわかったのはデータを可視化して何が使えるかわかることが一番重要

題名の通りだけど、結局データを見てそれをどううまく使うかと言うのを考えることが非常に大切で、ここができないとコードがかけても意味がない(過学習するだけ)ということがわかった。

 

ということでデータを見たい形で見ることが結構重要なので参考になるブログを備忘録として記載。

qiita.com

この記事ではKaggleのタイタニックのデータをグラフなどで見やすい形にして見ているので参考になる。

LASSO回帰分析

最小二乗法で出た過学習を抑えるための手法。

qiita.com

上のQIiitaのサンプルコードの説明はわかりやすかった。

 

qiita.com

こっちは原理について言及があってわかりやすかった。

neuro-educator.com

betashort-lab.com

ここらへんもわかりやすい。

 

最終的に以下の部分が結構重要。

//学習

lasso = Lasso().fit(x_tarin, y_tarin)

//係数を見る

lasso.coef_

//精度測定

lasso.score(x_test, y_test)

 

 

回帰分析の前に対数変換する理由は何?

atarimae.biz

このブログに書いてましたが、簡潔に言うと

■対数変換しない場合
直線的な予測(比例)

■対数変換する場合
弾力性的な予測(増加率が比例)

という感じだった。
最終的には両方やって決定係数を比べるというのが良いらしい。