使用PyQuery删除html文档中div中嵌入的div

时间:2014-04-10 22:45:15

标签: python

使用PyQuery,我想得到一个特定类的div,删除嵌入在该主div中的所有div和javascript,并获取主div中剩余的文本内容。到目前为止,这是我的代码:

pq = pyquery(urllib2.urlopen(source_url).read())
# remove embedded divs and javascript here
content = pq('.main_div').text()

删除主div中嵌入的div的最佳方法是什么?

1 个答案:

答案 0 :(得分:0)

没关系,明白了。这是一种方法:

pq = pyquery(urllib2.urlopen(source_url).read())('.main_div')
pq('div').remove()
pq('script').remove()
content = pq.text()