标签: apache-spark pyspark
我已经从Wikipedia,页面和一些文本以及其他一些元数据下载了大量数据,并将它们存储为SC。我想继续将它们加载到RDD中,以便我有一些数据可供探索。而且这些数据应该是HDFS。
如何使用Mac Terminal在Pyspark中做到这一点?我是Spark的新手,非常感谢您提供逐步解决方案。
Here's我想确切执行的示例(跳至4:35)。
请注意,我已经下载了Pyspark,现在它可以在Mac Terminal中使用。