我正在寻找一个启发式列表,给定一个HTML文档和/或网页上的一组URL,它们将提供一组URL,这些URL是该页面的上一个/下一个链接。另外,假设您获得了基本URL。我不需要知道链接是否特别是下一个或上一个URL,只是它是这两个中的一个。
我已经有了一个短名单:
- 与网址相同的域名和路径,但查询参数不同。
- base:abc.com/story
- 下一个/上一个:abc.com/story?p=2
- base:abc.com/story.html?p=5
- 下一个/上一个:abc.com/story.html?p=3
- 网址与数字路径元素之外的基本网址相同。
- base:abc.com/story
- 下一个/上一个:abc.com/story/2
- DOM / HTML中相邻的几个链接。
- 我知道这也可能像页眉/页脚一样,我不得不以某种方式解释...任何想法?
- 其文字为数字或其测试类似“下一页”,“上一页”,“第一页”,“上一页”,“后退”,“前进”等字样的链接
我知道我永远不会在这方面做得很完美,但我希望获得尽可能多的报道和尽可能多的启发式方法,希望能有很好的混合,数量和质量。感谢。