驚くほど簡単な技術系健忘録

アプリやWebサービス、RPAを作る上での健忘録を書いていきます。

2018-09-21

スクレイピングで取得した文字列をパースする

lxmlを使ってスクレイピングをしていると必ず出てくる

import urllib2
import lxml.html
html = urllib2.urlopen('http://www.cafe-gentle.jp/').read() # html 取得
root = lxml.html.fromstring(html)

の
root = lxml.html.fromstring(html)
の意味がわからなくて調べたら「パース」してるって出てきて
パースってなんやねん。って思っていろいろと調べた結果型の変換という結論に至りました。
Gentleちゃれんじ Tips -lxmlでhtmlを処理する-
ココらへんの記事が参考になるのかな？

解釈間違っていたらコメントお願いします。