Evernote Web Clipper如何很好地解析网页?

时间:2013-02-11 22:10:58

标签: python web-scraping screen-scraping evernote

我一直在尝试在python中复制Evernote Web Clipper的解析功能,用于我自己的网络抓取项目。我只对提取文本主体感兴趣,没有别的。

我已经使用了python Arc90端口:

https://github.com/buriy/python-readability

与aaronsw精彩的html2text库结合使用:

https://github.com/aaronsw/html2text

并且这给了大多数时间的良好结果,但是Evernote在抓取主体文本方面要好得多。

有人可以推荐一个更好的方法,或者告诉我Evernote正在做什么。

谢谢!

0 个答案:

没有答案