Question

我正在编写一个程序来从网站上抓取文本。

但是网站将其文本放在div标签中，有时文本放在p标签中的div标签中。

是否可以将此div标记转换为字符串，以便更容易格式化？

from lxml import etree
import requests
element = etree.HTML(requests.get('a website')).xpath('//div')

Answer 1

就是这样

from lxml import etree
import requests

el = etree.HTML(requests.get('a website').content).xpath('//div')

# then for first div (if it exist's)

print(etree.tostring(el[0]))

我可以将lxml div对象转换为字符串吗？

1 个答案: