如何检测像Evernote clipper这样的主要文章标签

时间:2014-07-21 04:30:01

标签: javascript html5 evernote

当我尝试使用Evernote clipper extension时, 我看到一个非常有用的功能。 当我点击"文章"时,它给了我一个非常正确的主页内容。 当我使用Evernote Clipper页面https://developer.chrome.com/extensions/api_index时看到结果 extract article in a page

我查看了evernote字段出来的主要文章,在几个页面中,文章实际上是从第一篇文章标签中提取的。但是,evernote限幅器仍可正常工作,页面不会使用这种标签。

我想知道Evernote剪刀能做到这一点吗?是否有任何js库支持来检测包含页面主要内容的主标记。 你能给我一些建议去做吗?

提前谢谢!

1 个答案:

答案 0 :(得分:10)

据我所知,没有通用的js lib可以做到这一点。 Evernote限幅器使用自己的方法从网页中提取“有趣”的内容。 您可以访问Evernote限幅器的代码以尝试了解该过程。

在我的Mac上,Chrome扩展程序的路径是:

〜/ Library / Application Support / Google / Chrome / Default / Extensions / pioclpoplcdbaefihamjohnefbikjilc / 6.2_0 /

这是另一种工作方式非常相似: https://www.readability.com/

您还可以查看此主题:What algorithm does Readability use for extracting text from URLs?

或在google上搜索“content extraction js lib”等字词。 (找到这个:https://github.com/hatena/extract-content-javascript

希望这有帮助