我想在熊猫列中的标记化文本上使用.similarity。
所以
我正在尝试使用此
df['tokenized'] = df['text'].apply(nlp)
然后
print(df.loc[0, 'tokenized'].similarity(df.loc[1, 'tokenized'])
获得相似性。 它可以工作,但是当我有1万行的文档时,速度非常慢。
然后我尝试使用nlp.pipe
df['tokenized'] = nlp.tokenizer.pipe(df['text'])
速度更快,但是我得到了一列生成器而不是令牌。
是否可以使用nlp.pipe()和熊猫获得相似度分数?