我有几百个文本文件,总计几百万字。我想要一个大约十万的独特单词列表。一切都适合记忆。
修改:我想要实际的列表,而不仅仅是列表的长度。
一种方法是在Set
中累积单词。
另一种方法是在Array
累积,最后只使用.sort.uniq
。
哪种考虑因素会优先于另一种?
答案 0 :(得分:1)
Ruby是错误的工具。更快的是tr " " "\n" < *.txt | sort -u
,可能会用GNU parallel
详细说明如果有一些sed
可以使用。如果进一步处理需要Ruby,那么只做Ruby中的那部分。