我正在尝试识别给定网址的标记。
标签规范是否有任何约定?任何基于常见用法的启发式算法?
我指的是对其内容进行分类的站内标记。例如在每篇TC文章中,您最终都可以找到“标签”部分。大多数内容网站也是如此。
答案 0 :(得分:1)
我希望我理解你的问题。我相信你指的是像'html''正则表达式'这样的标签,等等在问题的最后。
理论上,您可以假设,页面使用rel="xyz"
标记链接。
Stackoverflow会这样做,我知道的其他一些网站也会这样做。
http://microformats.org/wiki/rel-tag
但我不认为它非常可靠。由于没有'必须',并且不能保证这样的标签。
无论如何,如果你想尝试并解析内容,我不会建议从头开始。例如,Jsoup在非常光滑的库中提供了许多功能。您甚至可以找到具有特定属性的链接标记。