驚くほど簡単な技術系健忘録

驚くほど簡単な技術系健忘録

アプリやWebサービス、RPAを作る上での健忘録を書いていきます。

Optunaでパラメータチューニングしてみた【第一弾】

rin-effort.comこのサイトを参考にOptunaでパラメータチューニングを初めてやってみた。 参考サイトは別のCSVのデータで行っていますが、こちらの記事ではsklearnに入っているデータを利用してみた。参考サイトですごいなと思ったのは他のサイトであるあるな…

InstagramのAPIをGASを使って叩いてみた

参考の記事はこちら qiita.comInstagramのAPIに関するアクセストークンやIDは簡単に取得できず、FacebookのAPIから何度かAIPを叩いてようやく取得というのが本当にめんどくさい。以下コードを転載します。 function reporting(){ var today = new Date(); //…

SQLインジェクション脆弱性を持つサイトを作ってみた

dev.classmethod.jp ここのサイトを真似してSQLインジェクション脆弱性を持つサイトを作ろうとしたら色々とハマったので覚書。 ※そもそもPHPでデータベースに接続することすらしたことない素人が頑張ってみました。まずはログイン画面(これは上のサイトのソ…

Djangoを触ってみた

Pythonを最近勉強しているのでその流れでなにかWrbサービスが作れないかと思ってDjangoを触ってみた。 note.com このサイトを真似して作って見てわかったけど、正直何も理解できない(笑)Webってなんでこんなにファイル構造が複雑でファイルが多いんだ。 ちょ…

LightGBMのサンプルはどれが一番良いか

個人的にはここのサンプルが最も理解しやすかったので忘れないように書いておく mathmatical22.xyz あとはこの記事が初めてLightGBMを触った際に参考にさせてもらったブログということでこちらも記載 qiita.com こういうサンプルを上げられる人ってすごいな…

pandasで条件に合わせてデータを書き換える

■lambdaを利用する方法 #0,1でフラグを立てる時には便利 #columnsの値が'ok'の場合colums1を1にしてそれ以外の場合には0にする df['column1'] = df['column2'].apply(lambda x: 1 if x == 'ok' else 0) ■maskを利用する方法 #条件を満たす場合のみ値を変更 #…

MacのAnacondaにlibompをインストールするのは不可

Anacondaに conda install lightgbm -c conda-forgeでLightGBMをインストールして機械学習を試そうと思ったらlibompがインストールされていません的なワーニングが出た。 実際に実行するのには問題はないがなんか気持ち悪いので conda install libomp -c con…

機会学習のライブラリはLightGBMを使うのがいいらしい

機械学習ライブラリのおすすめはLightGBMがいいらしいという話を聞いたので、LightGBM/XGBoostをAnaconda経由で簡単にインストールする方法について調べたらいい記事を見つけたので備忘録のために書いておく。 qiita.com

GeoPandasで市区町村別と県別の境界をそれぞれ描く

【手順①:Shapeファイルの用意】 GeoPandasで市区町村別と県別の境界をそれぞれ書くには以下のデータがまず必要となる。 ①市区町村別のShapeファイル ②県月のShapeファイル ということでまず、それぞれのデータをダウンロードしておく①市区町村別のShapeファ…

Anacondaばっかり使っていてローカルのPython環境がカオスなことを思い出した

最近Anacondaばっかり使っていたので忘れていたが、ローカルのPython環境は、2系と3系が混じっているし、pip3 install しようとすると管理者権限がないからインストールできないといわれるし、社会人になってすぐに何も理解していない状況でpipとbrewの両方…

Pandasのメソッドまとめサイト見つけた

qiita.com ここのサイト結構便利だった!!! またググるのもいいけど備忘録として残しておく。

KaggleのRestaurant Revenue Predictionの写経をしてみた

qiita.comとりあえずこのQiitaの記事を写経しました。 import numpy as np # linear algebra import pandas as pd # data processing, CSV file I/O (e.g. pd.read_csv) import os for dirname, _, filenames in os.walk('/kaggle/input'): for filename in …

with区とテンポラリーテーブルの差

過去にこんな記事を書きました。 最近思ったのはサブクエリは一度だけ使うけど、テンポラリテーブルは何度も使うときには便利だし、そもそもSQLのコードが見やすいのではないかと思った。nade-nadegata.hatenablog.jpそして、一方で、with区とテンポラリーテ…

Windows10のAnacondaにconda-forgを用いてgeopandasをインストールする

まず前提として以下2点を注意してください。1.geopandasを手動でインストールすることは全くおすすめしませんので手動でインストールしたい方は別の記事を探してください。2.base環境へのインストールは既存パッケージとの依存関係があるためインストールが…

MacのAnacondaにgeopandasをインストールする

MacのAnacondaでgeopandasをインストールしようとしたら結構色々とトラブったので覚書。 まずそもそもの大前提を3つ --------------------------1.Anacondaの環境では極力pipを利用せずにパッケージをインストールするようにする2.WindosにはAnaconda Pronmp…

pandasにexcel出力出力のcsvを読ませる際に文字コードを注意しないといけない

qiita.com 上のブログに書いてあったが csvに、・ハシゴダカ "髙"・タチサキ "崎"等の、windows拡張文字列が混ざっている時には、文字コードをcp932としてやる必要があります。 encoding='cp932' とのことでした。

NumpyとPandas

文字通りNumpyとPandasは異なるもの。 Numpy:行列 Pandas:テータフレーム(データベースに近い) 扱うデータは違ってもこれは結構な違いで、カラム名などの概念の有無などが異なるので結構重要。

Pythonでのデータ分析に触れてみてわかったのはデータを可視化して何が使えるかわかることが一番重要

題名の通りだけど、結局データを見てそれをどううまく使うかと言うのを考えることが非常に大切で、ここができないとコードがかけても意味がない(過学習するだけ)ということがわかった。 ということでデータを見たい形で見ることが結構重要なので参考になるブ…

LASSO回帰分析

最小二乗法で出た過学習を抑えるための手法。 qiita.com 上のQIiitaのサンプルコードの説明はわかりやすかった。 qiita.com こっちは原理について言及があってわかりやすかった。 neuro-educator.com betashort-lab.com ここらへんもわかりやすい。 最終的に…

Kaggleを写経で実践してみる

住宅価格の予想を以下のブログの写経で実行してみました。 ちょっと勉強になった気になるのが写経のいいところ。 yolo-kiyoshi.com

回帰分析の前に対数変換する理由は何?

atarimae.biz このブログに書いてましたが、簡潔に言うと ■対数変換しない場合直線的な予測(比例) ■対数変換する場合弾力性的な予測(増加率が比例) という感じだった。最終的には両方やって決定係数を比べるというのが良いらしい。

Kaggleでデータ分析始めたけどPythonでわからないことが多すぎる件について

データ分析の最初はデータの欠損を調べましょうみたいな感じのブログが多くて、 yolo-kiyoshi.comここのブログを見ながら写経をしていたときに疑問になった点について記述。 #テストデータの欠損状況 test.isnull().sum()[test.isnull().sum()>0].sort_value…

Accessを複数のcsvを一つにまとめたマスタとして利用する

取り込むCSVの情報を予めテーブルに入力しておいて、更新時などもカラムにいておいて、以下のサイトに有るようにテーブル一覧をフォームに表示して、 pc.arthhuman.com その上で更新日の差分で取得するファイルを取ってくる感じのVBを組めば結構簡単に実装で…

Verticaでcsvの情報をテンポラリーテーブルに入れて利用する

まずはcsvをutf-8の形式でsqlがあるディレクトリと同じディレクトリに格納する。 その上でSQLは以下の通り \set pwd `pwd` \set sample_file ‘’’’:pwd’/sample.csv’’’ Create local temporary table T1 ( SAMPLE_COL1 int ,SAMPLE_COL2 varchar(10) ) ON COM…

一時テーブルとサブクエリの違いがわからない

メモリが云々とか色々と話しがあるけど正直違いが全くわからない。ただコードを見る感じでは一時テーブル作るほうが個人的には好きということはわかった。あと自分のスキルが低くそういう状況に陥ることがあまりないからだろうが、あるデータを解析したりす…

よく使うけど忘れちゃうLinuxコマンド

■ディレクトリ作成mkdir ■ファイルやディレクトリを移動(名前を変更)mv

Linuxのディレクトリ関係のコマンドまとめ

■ディレクトリ移動$cd ディレクトリ ■ホームディレクトリへの移動$cd ■現在のディレクトリへの移動$cd ./ ■上の階層への移動$cd .. ■2個上の階層への移動$cd ../..

複数のテーブルを連続でつなげる

SQL

題名の表現が正しいかわからないけど、 A-B-C みたいな感じでテーブルを繋げる方法について忘れないように記載。 SELECT G.goal_time AS '得点時間', P.name FROM goals AS G INNER JOIN players AS P ON G.player_id = P.id INNER JOIN countries AS C ON p…

SELECT句でつけたカラム名でGROUP化する場合

SQL

カラムで名前をつける際には文字列なのでシングルコーテションで囲んでも良い。囲まなくてももちろん良い。ただし、GROUP句ではこれはカラム名であって文字列ではないのでシングルコーテションで囲んではだめ。 日本語は全部シングルコーテーションで囲む癖…

MySQLで誕生日から年齢を求める

SQL

dev.mysql.comMySQLの公式リファレンスにもありますが、MySQLで年齢を求めるには「TIMESTAMPDIFF」カンスを利用します。 引数は結果を表現する単位、及び差を求める2つの日付です。 誕生日がbirthとしてわかっていて、当日の年齢を求める場合には TIMESTAMPD…