我一直在尝试在python中复制Evernote Web Clipper的解析功能,用于我自己的网络抓取项目。我只对提取文本主体感兴趣,没有别的。
我已经使用了python Arc90端口:
https://github.com/buriy/python-readability
与aaronsw精彩的html2text库结合使用:
https://github.com/aaronsw/html2text
并且这给了大多数时间的良好结果,但是Evernote在抓取主体文本方面要好得多。
有人可以推荐一个更好的方法,或者告诉我Evernote正在做什么。
谢谢!