从一堆文本文件中删除重复的短语?

时间:2014-01-05 09:16:11

标签: duplicate-removal

INPUT: 文本文件包含来自新闻网站但没有html标签的文本。 有些句子没有句号。有些句子是由从一行连接的导航链接中删除的短语组成的。

期望的输出: 相同的文本文件,但没有重复的短语。

可能的方法: 首先通过删除停用词来删除文本文件大小,删除重复的文本文件(如果有的话),然后从这里应用魔法

提前致谢

0 个答案:

没有答案