提供spark.csv方法的名称列表

时间:2017-07-18 18:40:05

标签: csv apache-spark pyspark

我目前正在尝试读取存储在S3中的csv。 CSV不包含标题行

对于spark 2.0.0或更高版本,

我尝试将其读作:

df[x]

   phoneNumber  count
0  08034303939     11
1  08034382919     11
3  09039292921     11

现在这给我的列名称为:

df = spark.read.csv("path_to_csv")

有没有办法在上面的函数中提供列名?在 Pandas 中,我可以使用参数_c0, _c1 , _c2 , ... 。类似的东西可以在这里吗?

PS:我最初的想法是将其作为CSV读取,然后对该列进行后期处理,因为spark.read.csv方法似乎没有任何可以帮助的参数。

1 个答案:

答案 0 :(得分:0)

你可以试试这个

 from pyspark.sql.types import StructType, StructField, StringType

您可以创建自己的架构

schema = StructType([StructField("X", StringType(), True), StructField("Y", StringType(), True)])



df = spark.read.csv("path to csv",header=False,schema=schema)