迭代多个pandas数据帧很慢

时间:2018-04-26 09:20:01

标签: python pandas

我正在尝试在Dataframe1中为每一行中的所有行找到相似单词的数量,其中包含Dataframe 2中的单词。

基于相似之处,我想创建一个新的数据框,其中
columns = N行dataframe2
值=相似性。

我当前的代码正在运行,但运行速度非常慢。我不确定如何优化它......

def get_sim(x, terms):
    similar_n = len(list(x.intersection(terms)))
    return similar_n

for index in icd10_terms.itertuples():
    code,terms = index[1],index[2]
    data[code] = data['text_tokenized'].apply(get_sim, args=(terms,))

更新:新代码(仍然运行缓慢)

#label_13_5_0 span {
  display: none !important;
}
#label_13_5_0:after {
  font-family: FontAwesome;
  content: "\f005";
   }

0 个答案:

没有答案