スクレイピングで取得した文字列をパースする
lxmlを使ってスクレイピングをしていると必ず出てくる
import urllib2 import lxml.html html = urllib2.urlopen('http://www.cafe-gentle.jp/').read() # html 取得 root = lxml.html.fromstring(html)
の
root = lxml.html.fromstring(html)
の意味がわからなくて調べたら「パース」してるって出てきて
パースってなんやねん。って思っていろいろと調べた結果型の変換という結論に至りました。
Gentleちゃれんじ Tips -lxmlでhtmlを処理する-
ココらへんの記事が参考になるのかな?
解釈間違っていたらコメントお願いします。