应用错误收集

时间：2012-07-28 16:28:28

标签： html regex parsing html-parsing pattern-matching

我正在尝试识别给定网址的标记。

标签规范是否有任何约定？任何基于常见用法的启发式算法？

我指的是对其内容进行分类的站内标记。例如在每篇TC文章中，您最终都可以找到“标签”部分。大多数内容网站也是如此。

答案 0 :(得分：1)

我希望我理解你的问题。我相信你指的是像'html''正则表达式'这样的标签，等等在问题的最后。

理论上，您可以假设，页面使用rel="xyz"标记链接。 Stackoverflow会这样做，我知道的其他一些网站也会这样做。

但我不认为它非常可靠。由于没有'必须'，并且不能保证这样的标签。

无论如何，如果你想尝试并解析内容，我不会建议从头开始。例如，Jsoup在非常光滑的库中提供了许多功能。您甚至可以找到具有特定属性的链接标记。