这是一个创意之一: - )
我会定期收到数百个新网址的列表,并想知道他们是否链接到博客 - 准确度在80%到95%之间就足够了。 < / p>
显然我需要分析页面的HTML - 但你究竟会如何处理这个问题(例如元标记,结构分析,模式匹配,机器学习......)?
答案 0 :(得分:5)
我会查看已知博客编辑器的生成器<meta>
标记。例如,这是它如何查找Wordpress:
<meta name="generator" content="WordPress.com" />
答案 1 :(得分:1)
在Darin's solution,上构建我会为已知的博客编辑器查找生成器<meta>
标记,并将其与常用网站的查找表相结合,即。 WordPress.com
,Blogspot.com
,Livejournal.com
等等。这应该会在短期内给你80-95%,尽管它不会足够强大,可以在一段时间内持续进行。
鉴于术语“博客”的无定形定义,扩展解决方案要困难得多。在这种情况下,您需要考虑将列表分解为其托管站点并定义特征,并为构成博客的内容创建硬性和快速的规则:
我可以很容易地看到构建一个神经网络来确定一个页面是否是一个博客,但这严重超出了你的要求范围。我说开始简单,然后相对于系统的建议生命周期扩展你的解决方案。
答案 2 :(得分:0)
上述建议很好,如果你的准确率达到80-90%,可能会有效。
我会更进一步,在元标记或链接中查找任何.xml RSS提要。然后检查Feed以查看是否有任何评论标记(因为还有其他用途的Feed)。对于某些博客平台我不会给你提供这样的东西,比如Tumblr。