我正在尝试在Dataframe1中为每一行中的所有行找到相似单词的数量,其中包含Dataframe 2中的单词。
基于相似之处,我想创建一个新的数据框,其中
columns = N行dataframe2
值=相似性。
我当前的代码正在运行,但运行速度非常慢。我不确定如何优化它......
def get_sim(x, terms):
similar_n = len(list(x.intersection(terms)))
return similar_n
for index in icd10_terms.itertuples():
code,terms = index[1],index[2]
data[code] = data['text_tokenized'].apply(get_sim, args=(terms,))
更新:新代码(仍然运行缓慢)
#label_13_5_0 span {
display: none !important;
}
#label_13_5_0:after {
font-family: FontAwesome;
content: "\f005";
}