从网站上获取读者视图内容的规则?

时间:2016-04-06 15:29:56

标签: html web-scraping

我正在尝试实现我自己的小型阅读器视图应用程序(一个与safari上的阅读器模式做同样事情的应用程序),并且我发现有一些事情要求自己:

  • 此功能是否有技术术语(读者视图并没有真正削减它)?
  • 是否有网站应遵循的标准,以表明他们希望在读者视图中拥有的内容
  • 是否有一套开源的HTML解析规则来从网站上提取“可读”的内容?
  • 在几周内,为一个人实施这样的事情的努力是否太大,如果是这样,我应该选择Instaparser等服务?

1 个答案:

答案 0 :(得分:3)

我相信原作由arc90实现,他们称之为可读性。您可以查看他们的页面here

随着时间的推移,它已被移植到许多不同的语言中,因此您可以查看不同的实现,以了解有关它的更多信息,它是如何完成的等等。

这只是一个小样本,如果您想了解更多,还有更多示例。

修改:哎呀,经过一些谷歌搜索后,我发现this question的答案解释得非常好。