我目前正在尝试读取存储在S3中的csv。 CSV不包含标题行。
对于spark 2.0.0或更高版本,
我尝试将其读作:
df[x]
phoneNumber count
0 08034303939 11
1 08034382919 11
3 09039292921 11
现在这给我的列名称为:
df = spark.read.csv("path_to_csv")
有没有办法在上面的函数中提供列名?在 Pandas 中,我可以使用参数_c0, _c1 , _c2 , ...
。类似的东西可以在这里吗?
PS:我最初的想法是将其作为CSV读取,然后对该列进行后期处理,因为spark.read.csv方法似乎没有任何可以帮助的参数。
答案 0 :(得分:0)
你可以试试这个
from pyspark.sql.types import StructType, StructField, StringType
您可以创建自己的架构
schema = StructType([StructField("X", StringType(), True), StructField("Y", StringType(), True)])
df = spark.read.csv("path to csv",header=False,schema=schema)