从Pandas数据框中删除与Levenshtein距离接近的行

时间:2018-05-01 20:53:56

标签: pandas optimization

在Pandas数据框中,我需要删除与Levenshtein距离太近的条目。效率低下的实现是:

String sampleString = "2 5 22 8";
String[] stringArray = sampleString.split(" ");

有更有效的方法吗?

1 个答案:

答案 0 :(得分:0)

要从侧点开始,您可能想要检查迭代时是否可以放置:

<resources>
    <style name="AppTheme" parent="@style/Theme.AppCompat.Light">
    </style>
</resources>

就你的问题而言,由于你只关注Levenshtein比率大于0.9的情况,所以当可以有效地看到它更低时,没有必要实际计算它。因此,例如,如果一个单词具有长度4而另一个单词具有长度8,则该距离将小于0.9。因此,您可以考虑以下内容:

for index, row in df.iterrows():
  for index2, row2 in df.iterrows():
     df.drop(index2, inplace = True) # <- is this safe?