我有一个大型数据集(1GB纯压缩文本)。
现在我正在根据数据中的信息重写数据集,例如:
现在我正在用Java做这一切。我想知道是否有人知道实际设计用于此类工作的工具或语言。它可以用Java编写,但我写了很多样板代码。
答案 0 :(得分:5)
Perl就是答案。它是为处理文本数据而创建的。
答案 1 :(得分:3)
可以找到关于字符串数据的大数据集操作的扩展讨论here。它讨论了更多语言及其特定优势,以及Unix / Linux shell脚本作为替代选项。
答案 2 :(得分:2)
答案 3 :(得分:2)
我一直在使用Python来完成这类工作。这些脚本很容易编写,因为Python很容易学习,并且有很好的文档库和核心语言功能。 Python与命令行相结合,让我很轻松。
在您的情况下,对于一个文件,我会编写脚本并执行:
zcat big_file.dat.gz | my_script.py
如果您不喜欢命令行工作,也可以使用Python的库来处理压缩文件。
正如其他人所提到的,Perl也同样出色。要么做到这一点。
答案 4 :(得分:1)
根据数据的结构方式,您可能不希望专注于语言,但是存储 - 您可以将这些内容提供给数据库并让数据库完成繁重工作吗?
答案 5 :(得分:0)
我建议使用AWK。 Wikipedia entry的第一行说明了一切。
AWK是一种编程语言,用于处理文件或数据流中基于文本的数据
答案 6 :(得分:0)
我最终使用了scala。我发现它对我正在做的工作非常有用。我可以轻松地将它集成到我的java代码中。