应用错误收集

如何将下载的数据加载到RDD中，以便可以使用Mac Terminal在PySpark中浏览一些数据？

时间：2019-04-07 23:32:30

标签： apache-spark pyspark

我已经从Wikipedia，页面和一些文本以及其他一些元数据下载了大量数据，并将它们存储为SC。我想继续将它们加载到RDD中，以便我有一些数据可供探索。而且这些数据应该是HDFS。

如何使用Mac Terminal在Pyspark中做到这一点？我是Spark的新手，非常感谢您提供逐步解决方案。

Here's我想确切执行的示例（跳至4:35）。

请注意，我已经下载了Pyspark，现在它可以在Mac Terminal中使用。

0 个答案:

没有答案