Pandas数据帧 - 在任何列中标识值超过阈值的行

时间:2016-03-25 23:17:24

标签: python pandas dataframe

我有一个单词相似性矩阵存储为pandas数据帧,其中列是"种子集"约400字,行索引是~50,000字的大字典。任何行/列的值是两个单词之间从0到1的相似性。

    e0 <= '0';
    e0 <= '1';

我试图从我的大字典中找到所有与我的种子集#34;的任何相似范围内的单词。也就是说,我想选择包含至少一个超过0.75的值的每一行。

我可以使用一些简单的pandas命令吗?

1 个答案:

答案 0 :(得分:3)

你可以这样做:

df.loc[(df > 0.75).sum(axis=1) > 0, :]

如果您只想要单词,请获取index属性。