驚くほど簡単な技術系健忘録

驚くほど簡単な技術系健忘録

アプリやWebサービス、RPAを作る上での健忘録を書いていきます。

BeautifulSoupを使って特定タグの中の情報を取得するコードについて

Beautifulsoupeを使って特定タグの中の情報を取得するコードを書きます。

import requests # urlを読み込むためrequestsをインポート
from bs4 import BeautifulSoup # htmlを読み込むためBeautifulSoupをインポート
URL = 'https://xxx.com' #URL入力
somethings = #リストの配列
soup = BeautifulSoup(requests.get(URL).content,'lxml') # bsでURL内を解析
for link in soup.find_all("yyy"): # yyyタグを取得しlinkに格納
  if link.get("yyy").endswith("zzz"): # yyyタグ内のzzzであるyyyタグを取得
    somethings.append(link.get("yyy")) #somethingsリストに格納

つまり例えばimgタグの中身がjpgであったときのみsrc情報がほしい場合には

import requests # urlを読み込むためrequestsをインポート
from bs4 import BeautifulSoup # htmlを読み込むためBeautifulSoupをインポート
URL = 'https://xxx.com' #URL入力
somethings = #リストの配列
soup = BeautifulSoup(requests.get(URL).content,'lxml') # bsでURL内を解析
for link in soup.find_all("img"): # imgタグを取得しlinkに格納
  if link.get("src").endswith(".jpg"): # imgタグ内の.jpgであるsrcタグを取得
    images.append(link.get("yyy")) # imagesリストに格納

という感じです。

参考のURLもおいておきます。
su-gi-rx.com


もしこの記事が気に入りましたらTwitterやってますのでフォローをお願いします。@nade_nadegata