驚くほど簡単な技術系健忘録

驚くほど簡単な技術系健忘録

アプリやWebサービス、RPAを作る上での健忘録を書いていきます。

スクレイピング

メルカリのスクレイピングをしてみた【コードはほぼコピペ】

ちょっと色々と試してみたい事がありメルカリのスクレイピングをBeautifulSoup を使ってやってみました。 seleniumを利用する方法も考えましたがやはりブラウザを開いて色々とするのは時間の無駄なのでBeautifulSoupを利用しています。完全に今回はこちらの…

Pythonの書き方忘れたけど適当にスクレイピングやっていたなと思った

employment.en-japan.com こんな記事を見てPythonってこうやって書いていたな〜と思ったりスクレイピングってルールも知らずに適当にやってたな〜ということを思った。 まぁなんにしろやっぱりスクレイピングはPyhtonとrequestsライブラリ、beautifulsoup4ラ…

ロリポップのCRONでシェルスクリプトからPythonを動かした話し

akamist.com こちらのサイトにあるように # sshから対話的に実行した時の出力 /usr/local/bin/python # cronから実行した時の出力 /usr/bin/python SSHとCRONでは利用するPythonが異なるということで #!/bin/bash # # cron script # /usr/local/bin/python t…

ロリポップにPythonのモジュールをインストールする

nade-nadegata.hatenablog.jp この記事でロリポップでpipパッケージを使うPythonプログラムを動かす際にはローカルで一旦特定フォルダにインストールしてそれをアップしてパスを通すという方法を書いたけど、そもそも以下のコードで普通にpipが使えることが…

PCに過去バージョンのlxmlをインストールできた話

---------------------pip install lxml -t ./folder---------------------これでインストールしたらもちろん最新バージョンしかインストールできなくて ---------------------pip install lxml==3.4.0 -t ./folder--------------------- とかしてもずっとエ…

Beautiful Soupで.stringを使うとNoneになってしまう時の解消法

qiita.com まさにこちらの記事で解決ができました。 エラーになったりならなかったり、<title></title>タグだったらうまくいったりしていたのでスッキリしました。 もしこの記事が気に入りましたらTwitterやってますのでフォローをお願いします。@nade_nadegata //

Pythonのスクレイピング結果をGoogleSpredSheetに入力する

Pythonを使ったスクレイピング結果をGoogleSpreadSheetに入力したいな〜。と思いいろいろと調べていたら良い記事が出てきた。 まずは初期設定についてはこちら。Google Cloud Platformを利用するらしい。tanuhack.com実際にスクレイピング結果を入力するコー…

BeautifulSoupを使って特定タグの中の情報を取得するコードについて

Beautifulsoupeを使って特定タグの中の情報を取得するコードを書きます。 import requests # urlを読み込むためrequestsをインポート from bs4 import BeautifulSoup # htmlを読み込むためBeautifulSoupをインポート URL = 'https://xxx.com' #URL入力 somet…

スクレイピングで取得した文字列をパースする

lxmlを使ってスクレイピングをしていると必ず出てくる import urllib2 import lxml.html html = urllib2.urlopen('http://www.cafe-gentle.jp/').read() # html 取得 root = lxml.html.fromstring(html)の root = lxml.html.fromstring(html) の意味がわから…

seleniumでリンクを別タブで開く

seleniumで新しいタブを開いたり、そのタブでURLを開いたり、閉じたりしてみました。 katsulog.techkatsulog.tech こちらのブログが参考になります。 簡単にコードを書くとこんな感じです。 driver.execute_script("window.open()") #make new tab driver.sw…

pythonで画像をダウンロードするのにurllibは利用できない。

いろいろ試して思ったのですがurllibが現在urllib3に変更となり。それに伴って urllib.request.urlretrieve(my_url, 'my_filename') こんな感じで画像を保存することができなくなりました。代替案はstackoverflow.comこちらにwimさんが記載してくれています…