我有一个单词相似性矩阵存储为pandas数据帧,其中列是"种子集"约400字,行索引是~50,000字的大字典。任何行/列的值是两个单词之间从0到1的相似性。
e0 <= '0';
e0 <= '1';
我试图从我的大字典中找到所有与我的种子集#34;的任何相似范围内的单词。也就是说,我想选择包含至少一个超过0.75的值的每一行。
我可以使用一些简单的pandas命令吗?
答案 0 :(得分:3)
你可以这样做:
df.loc[(df > 0.75).sum(axis=1) > 0, :]
如果您只想要单词,请获取index
属性。