我有一个专栏,我存储俄语短语,该短语用于通过每次点击付费广告系统定位人们。我想对这些短语进行词组化,但是它们之间有包含商店名称的短语。我想对所有词组进行词素化,但要防止这些商店的词组在词组中词义化。这是我的输入数据的示例
купить машину на Авито
купить кондиционеры Люком
цены на кухни Киргу
输入数据样本中的大写单词是商店名称。我试图创建使用Pymorphy2在Python中执行此操作的函数。这是我的进行词法化的代码 对不起,我的英语不好
stops = stopwords.words('russian')
morph = pymorphy2.MorphAnalyzer()
def lemmatization_func(x):
words_from_phrase = x.split()
#print(words_from_phrase)
phrase=[]
unique=[]
for word in words_from_phrase:
if word not in stops:
lemma = morph.parse(word)
#print(lemma)
for item in lemma:
phrase.append(item.normal_form)
#print(len(phrase))
for i in phrase:
if i not in unique:
unique.append(i)
#print(unique)
p_a = ' '.join(str(e) for e in unique)
return p_a
x = "купить машину на Авито"
j = lemmatization_func(x)
print(j)