标签: information-retrieval duplicate-removal
我正在尝试为网页构建Near Duplicate Analyzer。从那里我可以输入类似的网页来进行这种实验。 (为特定查询抓取搜索引擎似乎不是一个好选择)
答案 0 :(得分:0)
以下是一些想法:
以下是RFC的一些示例网址: