Question

我正在尝试进行一些文本预处理，然后将数据存储到新的csv文件中，以便以后使用。这是我在2种情况下使文本非逻辑化或不逻辑化的情况下在csv文件中得到的结果：

非修饰词文本：

侄女首先让你再次抄袭我

不能停止嘲笑picah ah ah anywayim当天上课，但我要花点时间学习

合法化的文本：

有侄女-1 -PRON-再复制我一次

无法停止对picah的笑声ah ah反正每天都在上课，但是-PRON-可以去咬一口书

import spacy
nlp = spacy.load('en_core_web_sm', disable=['parser', 'tagger', 'ner'])

def lemmatization(string):
    lemmatized_string = nlp(string)
    lemmatized_string = " ".join([token.lemma_ for token in lemmatized_string])
    return lemmatized_string

# a -> dataframe that holds the data
a.to_csv('data.csv', encoding='utf-8', index=False)

-PRON-对应于“ Im”或“ I'm”。为什么不使用“ be”呢？另外，为什么会出现此符号？ 1 我也尝试使用其他编码，但其中的一种都不起作用（utf-8，utf-sig-8，cp1252）

为什么spacy的lemmatizer产生奇怪的结果？

0 个答案: