我有一个大矩阵,其中的单元格表示文本文档(列)中单词(行)的出现次数。
counts = rand(567840,799); % 567840 words,799 text documents
不执行循环我需要:
1)提取至少90%的文本文档中出现的单词的缺陷
2)提取在所有文档集合中最多出现2次的单词的空白。
我要做的第2点
idx_2 = find(sum(counts,2)<=2);
我正在努力争取第一点...... 你能救我吗?
答案 0 :(得分:1)
1你可以做
idx1 = find(mean(counts > 0, 2) >= 0.9);
和你说的那样是
idx2 = find(sum(counts, 2) <= 2);
编辑 - 我看到Luis Mendo已经在评论中提到了这一点,所以我标记了这个社区维基。