我正在编写一个程序来从网站上抓取文本。
但是网站将其文本放在div
标签中,有时文本放在p
标签中的div
标签中。
是否可以将此div
标记转换为字符串,以便更容易格式化?
from lxml import etree
import requests
element = etree.HTML(requests.get('a website')).xpath('//div')
答案 0 :(得分:0)
就是这样
from lxml import etree
import requests
el = etree.HTML(requests.get('a website').content).xpath('//div')
# then for first div (if it exist's)
print(etree.tostring(el[0]))