捕获可见网页内容(或文本),就像从浏览器中复制一样

时间:2012-12-09 07:48:13

标签: python selenium screen-scraping web-scraping screenshot

有没有办法捕获可见的网页内容或文本,就像从浏览器显示复制到稍后解析(可能使用正则表达式等)?我不是要清理html标签,javascript等,只显示剩余的文本。我想复制所有可见文本,因为某些样式元素可能会隐藏某些html文本,而在浏览器中显示时会显示其他文本。到目前为止,我已经研究过nltk,lxml Cleaner和selenium而没有运气。也许我可以在selenium中捕获截图,然后使用ocr提取文本,但这似乎是计算机密集型的?谢谢你的帮助!

1 个答案:

答案 0 :(得分:2)

不确定。使用Selenium并遍历所有可见的可显示元素。