应用错误收集

用于近似重复页面分析的网页

时间：2012-03-09 19:05:38

标签： information-retrieval duplicate-removal

我正在尝试为网页构建Near Duplicate Analyzer。从那里我可以输入类似的网页来进行这种实验。（为特定查询抓取搜索引擎似乎不是一个好选择）

1 个答案:

答案 0 :(得分：0)

以下是一些想法：

来自不同网站的新闻稿
不同网站上的新闻文章
当前和旧版本的维基百科（编辑是更改）
不同服务器上的Unix手册页
不同格式的Internet RFC：文本，XML或HTML

以下是RFC的一些示例网址：