识别文章标签

时间:2012-07-28 16:28:28

标签: html regex parsing html-parsing pattern-matching

我正在尝试识别给定网址的标记。

标签规范是否有任何约定?任何基于常见用法的启发式算法?

我指的是对其内容进行分类的站内标记。例如在每篇TC文章中,您最终都可以找到“标签”部分。大多数内容网站也是如此。

1 个答案:

答案 0 :(得分:1)

我希望我理解你的问题。我相信你指的是像'html''正则表达式'这样的标签,等等在问题的最后。

理论上,您可以假设,页面使用rel="xyz"标记链接。 Stackoverflow会这样做,我知道的其他一些网站也会这样做。

http://microformats.org/wiki/rel-tag

但我不认为它非常可靠。由于没有'必须',并且不能保证这样的标签。

无论如何,如果你想尝试并解析内容,我不会建议从头开始。例如,Jsoup在非常光滑的库中提供了许多功能。您甚至可以找到具有特定属性的链接标记。