目前,我有一个由6部莎士比亚书籍制成的txt文件,我将基于prepared stop word list删除停用词。
首先,我创建一个空的txt文件,并将原始txt文件的内容以小写形式复制到新文件中(因为停用词列表由小写字母组成)。
$cat new_txt.txt | tr [A-Z] [a-z] > new_txt_lowercase.txt
然后,我使用下面的代码擦除停用词列表中的停用词:
$ grep -wvf 99webtools.txt new_txt_lowercase.txt>new_txt_no_stopwords.txt
$ grep -v -f 99webtools.txt new_txt_lowercase.txt>new_txt_no_stopwords.txt
但是它们都不起作用。
有什么想法吗?我的代码有什么问题吗?