Question

这个菜鸟问题的应用程序，因为我是pyspark的新手。我有一个导入到HDFS中的数据集（因为它的大小很大）。但是，数据集不是纯文本格式（.svm格式），我希望对其应用机器学习算法。

我可以在pyspark中将数据集读取为文本文件。但是，我需要矩阵或其他形式的人类可读输出，以便可以从数据集中提取特征。有人可以帮帮我吗。

Answer 1

您可以使用以下代码：

file_path = "hdfs:///path/to/file.csv"

spark = SparkSession.builder.master("local").getOrCreate()

df = (
        spark.read.format("com.databricks.spark.csv")
            .options(header="true", inferSchema="true")
            .load(file_path)
    )

在Pyspark中读取数据集并提取特征

1 个答案: