我正在尝试进行一些文本预处理,然后将数据存储到新的csv文件中,以便以后使用。这是我在2种情况下使文本非逻辑化或不逻辑化的情况下在csv文件中得到的结果:
非修饰词文本:
侄女首先让你再次抄袭我
不能停止嘲笑picah ah ah anywayim当天上课,但我要花点时间学习
合法化的文本:
有侄女-1 -PRON-再复制我一次
无法停止对picah的笑声ah ah反正每天都在上课,但是-PRON-可以去咬一口书
import spacy
nlp = spacy.load('en_core_web_sm', disable=['parser', 'tagger', 'ner'])
def lemmatization(string):
lemmatized_string = nlp(string)
lemmatized_string = " ".join([token.lemma_ for token in lemmatized_string])
return lemmatized_string
# a -> dataframe that holds the data
a.to_csv('data.csv', encoding='utf-8', index=False)
-PRON-对应于“ Im”或“ I'm”。为什么不使用“ be”呢? 另外,为什么会出现此符号? 1 我也尝试使用其他编码,但其中的一种都不起作用(utf-8,utf-sig-8,cp1252)