我从事文本挖掘和统计建模,主要是学校的课程和研究项目。我主要使用的是Windows GUI版本的R和Python。我很快就会完成,我意识到进入这个行业,大部分工作都是在Unix / Linux机器上完成的。
在我开始寻找工作(大约6个月)之前,我希望获得一些在Unix上工作的经验,特别是在命令行。我想问你们两件事 -
一个。哪个unix / linux发行版最适合熟悉。据我所知,大部分知识都会扩展到分布,但我仍然想知道哪一个最适合投入时间。
湾是否有任何资源或书籍可以帮助我提高从命令行工作的速度,而不是像Gnome或KDE那样的GUI。
我不确定这是否重要,但我也想提一下,我也想花一些时间学习Hadoop,Pig和Mahout的基础知识。
答案 0 :(得分:4)
我自己使用Ubuntu,但是出于你的目的,你选择哪一个并不重要 - 只要所选择的人不会花费你所有的时间来学习UNIX本身 - 你想要专注于工具,而不是系统管理。
最好花时间学习编辑器(vim / emacs),脚本语言(Python,Ruby)和mapreduce(Hadoop,Pig和Mahout)。
答案 1 :(得分:4)
我不会担心您最终学习的特定Linux发行版。它几乎肯定与他们在最终雇主中使用的东西不同。相反,选择您的朋友和同学使用的分发。如果没有其他人使用Linux,那么Ubuntu是一个很好的起点。
您还应该考虑学习Mac OS X.差异并不大,但越来越多的开发人员更喜欢将OS X用作桌面unix环境。
您还应该花一些时间来学习SQL的基础知识。至少,抓住SQLite,以便您可以创建数据库并运行一些查询。如果您想深入了解,请尝试MySQL。大型统计分析项目通常具有SQL数据库来管理数据集。即使是中型项目,您也可能会发现在数据库中处理数据比在平面文件中处理数据要容易得多。
答案 2 :(得分:4)
我同意其他人Ubuntu非常适合你学习。许多公司选择红帽企业Linux是因为他们可以获得官方支持,而公司则喜欢支持。 CentOS是免费的。
我喜欢Unix Power Tools作为命令行的资源,您可以随时谷歌搜索“unix shell tips”等。
答案 3 :(得分:2)
现在最受用户欢迎的Linux发行版之一毫无疑问是Ubuntu。网络上有很多关于Linux shell的指南。
然而,对于超级用户来说这是一个问题......;)
答案 4 :(得分:1)
Cloudera有Hadoop VMs。您可以在Linux或Windows上使用它们。一般来说,VM几乎可以学习任何东西,因为您不必担心会破坏主系统,只是因为您遵循了一些随机博客的说明。您可以使用多个VM来模拟一个小型Hadoop集群。