BeautifulSoupを使って特定タグの中の情報を取得するコードについて
Beautifulsoupeを使って特定タグの中の情報を取得するコードを書きます。
import requests # urlを読み込むためrequestsをインポート from bs4 import BeautifulSoup # htmlを読み込むためBeautifulSoupをインポート URL = 'https://xxx.com' #URL入力 somethings = #リストの配列 soup = BeautifulSoup(requests.get(URL).content,'lxml') # bsでURL内を解析 for link in soup.find_all("yyy"): # yyyタグを取得しlinkに格納 if link.get("yyy").endswith("zzz"): # yyyタグ内のzzzであるyyyタグを取得 somethings.append(link.get("yyy")) #somethingsリストに格納
つまり例えばimgタグの中身がjpgであったときのみsrc情報がほしい場合には
import requests # urlを読み込むためrequestsをインポート from bs4 import BeautifulSoup # htmlを読み込むためBeautifulSoupをインポート URL = 'https://xxx.com' #URL入力 somethings = #リストの配列 soup = BeautifulSoup(requests.get(URL).content,'lxml') # bsでURL内を解析 for link in soup.find_all("img"): # imgタグを取得しlinkに格納 if link.get("src").endswith(".jpg"): # imgタグ内の.jpgであるsrcタグを取得 images.append(link.get("yyy")) # imagesリストに格納
という感じです。
参考のURLもおいておきます。
su-gi-rx.com
もしこの記事が気に入りましたらTwitterやってますのでフォローをお願いします。@nade_nadegata