スクレイピング
ちょっと色々と試してみたい事がありメルカリのスクレイピングをBeautifulSoup を使ってやってみました。 seleniumを利用する方法も考えましたがやはりブラウザを開いて色々とするのは時間の無駄なのでBeautifulSoupを利用しています。完全に今回はこちらの…
employment.en-japan.com こんな記事を見てPythonってこうやって書いていたな〜と思ったりスクレイピングってルールも知らずに適当にやってたな〜ということを思った。 まぁなんにしろやっぱりスクレイピングはPyhtonとrequestsライブラリ、beautifulsoup4ラ…
akamist.com こちらのサイトにあるように # sshから対話的に実行した時の出力 /usr/local/bin/python # cronから実行した時の出力 /usr/bin/python SSHとCRONでは利用するPythonが異なるということで #!/bin/bash # # cron script # /usr/local/bin/python t…
nade-nadegata.hatenablog.jp この記事でロリポップでpipパッケージを使うPythonプログラムを動かす際にはローカルで一旦特定フォルダにインストールしてそれをアップしてパスを通すという方法を書いたけど、そもそも以下のコードで普通にpipが使えることが…
---------------------pip install lxml -t ./folder---------------------これでインストールしたらもちろん最新バージョンしかインストールできなくて ---------------------pip install lxml==3.4.0 -t ./folder--------------------- とかしてもずっとエ…
qiita.com まさにこちらの記事で解決ができました。 エラーになったりならなかったり、<title></title>タグだったらうまくいったりしていたのでスッキリしました。 もしこの記事が気に入りましたらTwitterやってますのでフォローをお願いします。@nade_nadegata //
Pythonを使ったスクレイピング結果をGoogleSpreadSheetに入力したいな〜。と思いいろいろと調べていたら良い記事が出てきた。 まずは初期設定についてはこちら。Google Cloud Platformを利用するらしい。tanuhack.com実際にスクレイピング結果を入力するコー…
Beautifulsoupeを使って特定タグの中の情報を取得するコードを書きます。 import requests # urlを読み込むためrequestsをインポート from bs4 import BeautifulSoup # htmlを読み込むためBeautifulSoupをインポート URL = 'https://xxx.com' #URL入力 somet…
lxmlを使ってスクレイピングをしていると必ず出てくる import urllib2 import lxml.html html = urllib2.urlopen('http://www.cafe-gentle.jp/').read() # html 取得 root = lxml.html.fromstring(html)の root = lxml.html.fromstring(html) の意味がわから…
seleniumで新しいタブを開いたり、そのタブでURLを開いたり、閉じたりしてみました。 katsulog.techkatsulog.tech こちらのブログが参考になります。 簡単にコードを書くとこんな感じです。 driver.execute_script("window.open()") #make new tab driver.sw…
いろいろ試して思ったのですがurllibが現在urllib3に変更となり。それに伴って urllib.request.urlretrieve(my_url, 'my_filename') こんな感じで画像を保存することができなくなりました。代替案はstackoverflow.comこちらにwimさんが記載してくれています…