标签: nltk
理想情况下,第1行,第2行和第4行应合并为一行。此输出是在完成Stemming,Lemmatizing,BeautifulSoup并使用仅保留字母等的正则表达式之后...
如果有任何方法可以将这些不同的行组合起来实际上意味着相同的话,请帮助我 - 目前看起来不同,因为这些词是互换的。
谢谢&问候 马德汉