确定URL是否位于给定URL,页面DOM,父URL和其他页面URL的网页的页眉/页脚中

时间:2010-07-21 04:00:25

标签: c# html url heuristics

根据网址,第一个网址所在的网页的网址,网页的DOM以及网页上其他网址的列表,我如何可靠确定是否URL位于页面的页眉/页脚中,或者它是否在?

我正在使用C#/。NET。

我知道没有任何解决方案是完美的,因为网页没有语义表达,也因为某些网站/网页专门模糊了他们的网页,但我想构建一些逻辑,可以说75%的网页

此外,是否有其他信息有助于确定网页中网址的位置?

1 个答案:

答案 0 :(得分:0)

我认为这里的创意任务是定义“标题”和“页脚”,如“内容少于x单位,远离顶部”或“页面上的最后200个字符”。完成此操作后,您可以根据这些规则解析页面。