应用错误收集

时间：2009-10-16 15:46:54

标签： programming-languages dataset

我有一个大型数据集（1GB纯压缩文本）。

现在我正在根据数据中的信息重写数据集，例如：

现在我正在用Java做这一切。我想知道是否有人知道实际设计用于此类工作的工具或语言。它可以用Java编写，但我写了很多样板代码。

答案 0 :(得分：5)

Perl就是答案。它是为处理文本数据而创建的。

答案 1 :(得分：3)

可以找到关于字符串数据的大数据集操作的扩展讨论here。它讨论了更多语言及其特定优势，以及Unix / Linux shell脚本作为替代选项。

答案 2 :(得分：2)

答案 3 :(得分：2)

我一直在使用Python来完成这类工作。这些脚本很容易编写，因为Python很容易学习，并且有很好的文档库和核心语言功能。 Python与命令行相结合，让我很轻松。

在您的情况下，对于一个文件，我会编写脚本并执行：

zcat big_file.dat.gz | my_script.py

如果您不喜欢命令行工作，也可以使用Python的库来处理压缩文件。

正如其他人所提到的，Perl也同样出色。要么做到这一点。

答案 4 :(得分：1)

根据数据的结构方式，您可能不希望专注于语言，但是存储 - 您可以将这些内容提供给数据库并让数据库完成繁重工作吗？

答案 5 :(得分：0)

我建议使用AWK。 Wikipedia entry的第一行说明了一切。

AWK是一种编程语言，用于处理文件或数据流中基于文本的数据

答案 6 :(得分：0)

我最终使用了scala。我发现它对我正在做的工作非常有用。我可以轻松地将它集成到我的java代码中。