根据网址,第一个网址所在的网页的网址,网页的DOM以及网页上其他网址的列表,我如何可靠确定是否URL位于页面的页眉/页脚中,或者它是否在?
中我正在使用C#/。NET。
我知道没有任何解决方案是完美的,因为网页没有语义表达,也因为某些网站/网页专门模糊了他们的网页,但我想构建一些逻辑,可以说75%的网页
此外,是否有其他信息有助于确定网页中网址的位置?
答案 0 :(得分:0)
我认为这里的创意任务是定义“标题”和“页脚”,如“内容少于x单位,远离顶部”或“页面上的最后200个字符”。完成此操作后,您可以根据这些规则解析页面。