Question

我有一个单词相似性矩阵存储为pandas数据帧，其中列是＆＃34;种子集＆＃34;约400字，行索引是~50,000字的大字典。任何行/列的值是两个单词之间从0到1的相似性。

    e0 <= '0';
    e0 <= '1';

我试图从我的大字典中找到所有与我的种子集＃34;的任何相似范围内的单词。也就是说，我想选择包含至少一个超过0.75的值的每一行。

我可以使用一些简单的pandas命令吗？

Answer 1

你可以这样做：

df.loc[(df > 0.75).sum(axis=1) > 0, :]

如果您只想要单词，请获取index属性。