用于处理R的大数据的编程语言

时间:2013-04-14 06:29:34

标签: r haskell clojure

最近我有时间学习数据可视化,作为Excel图表的替代品。我的选择是R(使用ggplot2)并且已经开始学习它了。

在“R简而言之”中,约瑟夫阿德勒说:

  

通常,我使用像Perl这样的工具来预处理大文件   在R.中使用它们。

     

我建议使用像Perl,Python或Ruby这样的脚本语言   预处理大型复杂的文本文件并将其转换为易于理解的文件   形成。 (作为旁注,我通常会写出字段名称列表   Excel中的长度,然后使用Excel公式创建R或Perl   加载它们的代码。

这个想法落后于Unix哲学 - 让每个工具都能很好地完成工作,让它们一起工作。因此,从长远来看,我打算学习:

  • R用于可视化,
  • 另一种数据编程语言 处理未来。

问题出现在哪种语言上学习?

我没有计算机科学背景,同时Perl对我来说太难了。我在网上做了一些搜索,发现Haskell和Clojure非常有趣。由于这里有很多程序员+统计员,我想知道,哪一个作为大数据处理目的与R一起顺利?

尼克

3 个答案:

答案 0 :(得分:6)

我真的不喜欢工作流程中有太多工具。如果我只是使用R就可以逃脱,我更喜欢。您最终必须手动运行一些串联的工具,这使得再次运行更有效。或者你花时间连接不同的工具,这需要时间并引入自己的一系列问题。

对于一个初学程序员来说,坚持使用R还有另一个好处:你花费所有时间学习一种语言,即防止成为所有行业的杰克,但不能掌握。

我使用几种编程语言(R,Python,IDL,Fortran),但是对于数据处理,我倾向于坚持使用纯R,如果我能帮助它的话。

答案 1 :(得分:1)

我在这个领域的个人选择工具是Incanter

它结合了:

  • 受R
  • 启发的统计/可视化功能
  • 使用Clojure作为通用编程语言
  • 在JVM上运行并可以访问所有Java库:如果您想要与其他系统集成或直接在生产中使用,这是一个很大的好处。
总的来说,从纯粹的统计角度来看,它还不像R那么复杂,但恕我直言Clojure是一种更好,更有能力的通用语言。因此,如果您想使用数据构建生产应用程序,整个包更有用。

答案 2 :(得分:0)

我会使用python,主要是因为:

  1. 更容易阅读/理解
  2. R-python bridge可让您轻松集成这两种语言。