用于近似重复页面分析的网页

时间:2012-03-09 19:05:38

标签: information-retrieval duplicate-removal

我正在尝试为网页构建Near Duplicate Analyzer。从那里我可以输入类似的网页来进行这种实验。 (为特定查询抓取搜索引擎似乎不是一个好选择)

1 个答案:

答案 0 :(得分:0)

以下是一些想法:

  • 来自不同网站的新闻稿
  • 不同网站上的新闻文章
  • 当前和旧版本的维基百科(编辑是更改)
  • 不同服务器上的Unix手册页
  • 不同格式的Internet RFC:文本,XML或HTML

以下是RFC的一些示例网址: