Question

我有一个大矩阵，其中的单元格表示文本文档（列）中单词（行）的出现次数。

counts = rand(567840,799); % 567840 words,799 text documents

不执行循环我需要：

1）提取至少90％的文本文档中出现的单词的缺陷

2）提取在所有文档集合中最多出现2次的单词的空白。

我要做的第2点

idx_2 = find(sum(counts,2)<=2);

我正在努力争取第一点...... 你能救我吗？

Answer 1

1你可以做

idx1 = find(mean(counts > 0, 2) >= 0.9);

和你说的那样是

idx2 = find(sum(counts, 2) <= 2);

编辑 - 我看到Luis Mendo已经在评论中提到了这一点，所以我标记了这个社区维基。