如何防止短语中专有名词的词形化

时间:2019-06-08 17:16:44

标签: python nltk

我有一个专栏,我存储俄语短语,该短语用于通过每次点击付费广告系统定位人们。我想对这些短语进行词组化,但是它们之间有包含商店名称的短语。我想对所有词组进行词素化,但要防止这些商店的词组在词组中词义化。这是我的输入数据的示例

купить машину на Авито
купить кондиционеры Люком
цены на кухни Киргу

输入数据样本中的大写单词是商店名称。我试图创建使用Pymorphy2在Python中执行此操作的函数。这是我的进行词法化的代码 对不起,我的英语不好

stops = stopwords.words('russian')
morph = pymorphy2.MorphAnalyzer()
def lemmatization_func(x):
words_from_phrase = x.split()
#print(words_from_phrase)
phrase=[]
unique=[]
for word in words_from_phrase:
    if word not in stops:
        lemma = morph.parse(word)
        #print(lemma)
        for item in lemma:
            phrase.append(item.normal_form)


#print(len(phrase))

for i in phrase:
    if i not in unique:
        unique.append(i)


#print(unique)


p_a = ' '.join(str(e) for e in unique)
return p_a 

x = "купить машину на Авито"
j = lemmatization_func(x)
print(j)

0 个答案:

没有答案