在Pyspark中读取数据集并提取特征

时间:2019-11-15 11:52:22

标签: apache-spark machine-learning pyspark

这个菜鸟问题的应用程序,因为我是pyspark的新手。我有一个导入到HDFS中的数据集(因为它的大小很大)。但是,数据集不是纯文本格式(.svm格式),我希望对其应用机器学习算法。

Link to Dataset

我可以在pyspark中将数据集读取为文本文件。但是,我需要矩阵或其他形式的人类可读输出,以便可以从数据集中提取特征。有人可以帮帮我吗。

1 个答案:

答案 0 :(得分:0)

您可以使用以下代码:

file_path = "hdfs:///path/to/file.csv"

spark = SparkSession.builder.master("local").getOrCreate()

df = (
        spark.read.format("com.databricks.spark.csv")
            .options(header="true", inferSchema="true")
            .load(file_path)
    )