答案 0 :(得分:5)
项目网站可能是一个很好的起点:
http://code.google.com/p/arc90labs-readability/
我希望这有帮助!
BTW - 我有几个站点的链接,包括演示站点,寄存器中的原始artcile,但stackoverflow不会让n00bs发布多个链接。我会编辑添加那些曾经有一些代表!
答案 1 :(得分:2)
答案 2 :(得分:1)
我不确定safari的webreader代码在哪里。但有一个名为boilerpipe的工具可以做一些非常相似的工作
答案 3 :(得分:1)
Tomaz Kovacic的博客上提供了关于类似工具的好评:http://tomazkovacic.com/blog/122/evaluating-text-extraction-algorithms/
它包含两组文章的文本提取工具(包括samppipe,reaability和其他几个)的比较。此外,在同一博客的其他文章中还有一个功能明智的比较。