应用错误收集

我正在尝试在Dataframe1中为每一行中的所有行找到相似单词的数量，其中包含Dataframe 2中的单词。

基于相似之处，我想创建一个新的数据框，其中
columns = N行dataframe2
值=相似性。

我当前的代码正在运行，但运行速度非常慢。我不确定如何优化它......

def get_sim(x, terms):
    similar_n = len(list(x.intersection(terms)))
    return similar_n

for index in icd10_terms.itertuples():
    code,terms = index[1],index[2]
    data[code] = data['text_tokenized'].apply(get_sim, args=(terms,))

更新：新代码（仍然运行缓慢）

#label_13_5_0 span {
  display: none !important;
}
#label_13_5_0:after {
  font-family: FontAwesome;
  content: "\f005";
   }

迭代多个pandas数据帧很慢

0 个答案: