如何将下载的数据加载到RDD中,以便可以使用Mac Terminal在PySpark中浏览一些数据?

时间:2019-04-07 23:32:30

标签: apache-spark pyspark

我已经从Wikipedia,页面和一些文本以及其他一些元数据下载了大量数据,并将它们存储为SC。我想继续将它们加载到RDD中,以便我有一些数据可供探索。而且这些数据应该是HDFS。

如何使用Mac Terminal在Pyspark中做到这一点?我是Spark的新手,非常感谢您提供逐步解决方案。

Here's我想确切执行的示例(跳至4:35)。

请注意,我已经下载了Pyspark,现在它可以在Mac Terminal中使用。

0 个答案:

没有答案