使用python或hadoop进行数据分析?

时间:2018-07-30 04:41:29

标签: anaconda data-science data-analysis

哪种技术可以有效分析数据hadoop或python?两者之间的速度是哪种技术?

2 个答案:

答案 0 :(得分:0)

每当分析数据并考虑速度作为标准时,两个关键因素决定了速度:您拥有的数据量和数据所在的位置。

如果您有Big Data,请考虑使用Hadoop或Spark对其进行分析。这将使其更快,并且您将不再依赖于加载时间。如果您有几GB的数据,最好使用python,但它仍然可能使您的计算机速度变慢。

现在要解决数据的位置,如果前提是您有数据,那么python是最好的方法。如果您的数据位于云服务器中,那么AzureGCP甚至是AWS都可以使用大数据工具来简化数据探索。这三个云系统都具有可用的大数据工具。

因此,在速度方面,它实际上取决于两个约束。如果您有大数据并且您的数据位于云系统中。考虑使用Hadoop分析数据。如果您只有几GB的数据和内部部署,请使用python分析数据。

答案 1 :(得分:0)

因此Hadoop主要使用spark。如果您用于分析或处理数据的基础框架包含Spark,则最好与Scala,PySpark或R一起使用。单独使用python不会给您带来Spark的好处,Spark可以使数据分析更快,并且可以进行各种转换大数据。因此,无论您使用哪种,都与使用spark有关。

Scala或PySpark:几乎都包含所有这些功能。