应用错误收集

Ruby：累积到一个Set，或者进入一个数组并在之后进行排序？

时间：2017-05-30 22:59:46

标签： arrays ruby time-complexity

我有几百个文本文件，总计几百万字。我想要一个大约十万的独特单词列表。一切都适合记忆。

修改：我想要实际的列表，而不仅仅是列表的长度。

一种方法是在Set中累积单词。

另一种方法是在Array累积，最后只使用.sort.uniq。

哪种考虑因素会优先于另一种？

1 个答案:

答案 0 :(得分：1)

Ruby是错误的工具。更快的是tr " " "\n" < *.txt | sort -u，可能会用GNU parallel详细说明如果有一些sed可以使用。如果进一步处理需要Ruby，那么只做Ruby中的那部分。