使用PyQuery,我想得到一个特定类的div,删除嵌入在该主div中的所有div和javascript,并获取主div中剩余的文本内容。到目前为止,这是我的代码:
pq = pyquery(urllib2.urlopen(source_url).read())
# remove embedded divs and javascript here
content = pq('.main_div').text()
删除主div中嵌入的div的最佳方法是什么?
答案 0 :(得分:0)
没关系,明白了。这是一种方法:
pq = pyquery(urllib2.urlopen(source_url).read())('.main_div')
pq('div').remove()
pq('script').remove()
content = pq.text()