为什么spacy的lemmatizer产生奇怪的结果?

时间:2019-07-06 15:44:10

标签: python nlp text-processing spacy

我正在尝试进行一些文本预处理,然后将数据存储到新的csv文件中,以便以后使用。这是我在2种情况下使文本非逻辑化或不逻辑化的情况下在csv文件中得到的结果:

非修饰词文本:

侄女首先让你再次抄袭我

不能停止嘲笑picah ah ah anywayim当天上课,但我要花点时间学习

合法化的文本:

有侄女-1 -PRON-再复制我一次

无法停止对picah的笑声ah ah反正每天都在上课,但是-PRON-可以去咬一口书

import spacy
nlp = spacy.load('en_core_web_sm', disable=['parser', 'tagger', 'ner'])

def lemmatization(string):
    lemmatized_string = nlp(string)
    lemmatized_string = " ".join([token.lemma_ for token in lemmatized_string])
    return lemmatized_string

# a -> dataframe that holds the data
a.to_csv('data.csv', encoding='utf-8', index=False)

-PRON-对应于“ Im”或“ I'm”。为什么不使用“ be”呢? 另外,为什么会出现此符号? 1 我也尝试使用其他编码,但其中的一种都不起作用(utf-8,utf-sig-8,cp1252)

0 个答案:

没有答案