Ruby:累积到一个Set,或者进入一个数组并在之后进行排序?

时间:2017-05-30 22:59:46

标签: arrays ruby time-complexity

我有几百个文本文件,总计几百万字。我想要一个大约十万的独特单词列表。一切都适合记忆。

修改:我想要实际的列表,而不仅仅是列表的长度。

一种方法是在Set中累积单词。

另一种方法是在Array累积,最后只使用.sort.uniq

哪种考虑因素会优先于另一种?

1 个答案:

答案 0 :(得分:1)

Ruby是错误的工具。更快的是tr " " "\n" < *.txt | sort -u,可能会用GNU parallel详细说明如果有一些sed可以使用。如果进一步处理需要Ruby,那么只做Ruby中的那部分。