上一页/下一页网页链接启发式?

时间:2010-07-15 01:52:52

标签: html url web-crawler href heuristics

我正在寻找一个启发式列表,给定一个HTML文档和/或网页上的一组URL,它们将提供一组URL,这些URL是该页面的上一个/下一个链接。另外,假设您获得了基本URL。我不需要知道链接是否特别是下一个或上一个URL,只是它是这两个中的一个。

我已经有了一个短名单:

  • 与网址相同的域名和路径,但查询参数不同。
    • base:abc.com/story
    • 下一个/上一个:abc.com/story?p=2
    • base:abc.com/story.html?p=5
    • 下一个/上一个:abc.com/story.html?p=3
  • 网址与数字路径元素之外的基本网址相同。
    • base:abc.com/story
    • 下一个/上一个:abc.com/story/2
  • DOM / HTML中相邻的几个链接。
    • 我知道这也可能像页眉/页脚一样,我不得不以某种方式解释...任何想法?
  • 其文字为数字或其测试类似“下一页”,“上一页”,“第一页”,“上一页”,“后退”,“前进”等字样的链接

我知道我永远不会在这方面做得很完美,但我希望获得尽可能多的报道和尽可能多的启发式方法,希望能有很好的混合,数量和质量。感谢。

0 个答案:

没有答案