这个菜鸟问题的应用程序,因为我是pyspark的新手。我有一个导入到HDFS中的数据集(因为它的大小很大)。但是,数据集不是纯文本格式(.svm格式),我希望对其应用机器学习算法。
我可以在pyspark中将数据集读取为文本文件。但是,我需要矩阵或其他形式的人类可读输出,以便可以从数据集中提取特征。有人可以帮帮我吗。
答案 0 :(得分:0)
您可以使用以下代码:
file_path = "hdfs:///path/to/file.csv"
spark = SparkSession.builder.master("local").getOrCreate()
df = (
spark.read.format("com.databricks.spark.csv")
.options(header="true", inferSchema="true")
.load(file_path)
)