Question

我目前正在尝试读取存储在S3中的csv。 CSV不包含标题行。

对于spark 2.0.0或更高版本，

我尝试将其读作：

df[x]

   phoneNumber  count
0  08034303939     11
1  08034382919     11
3  09039292921     11

现在这给我的列名称为：

df = spark.read.csv("path_to_csv")

有没有办法在上面的函数中提供列名？在 Pandas 中，我可以使用参数_c0, _c1 , _c2 , ...。类似的东西可以在这里吗？

PS：我最初的想法是将其作为CSV读取，然后对该列进行后期处理，因为spark.read.csv方法似乎没有任何可以帮助的参数。

Answer 1

你可以试试这个

 from pyspark.sql.types import StructType, StructField, StringType

您可以创建自己的架构

schema = StructType([StructField("X", StringType(), True), StructField("Y", StringType(), True)])



df = spark.read.csv("path to csv",header=False,schema=schema)

提供spark.csv方法的名称列表

1 个答案: