在pyspark

时间:2019-07-25 06:53:49

标签: dataframe pyspark

我在csv中具有以下形式的数据集:

5504 {(19410,0),(184537,0),(185652,0),(609494,0),(1377433,512),(1527570,0)}

第一个是ID,字典是朋友ID及其关系的列表。 我看不懂它。

from pyspark.sql.types import *



schema = StructType([
            StructField("id", StringType(), True),
            StructField("list_of_friends", DataType(), True)
            ])

df = spark.read.format("csv").\
                option("header", "false").\
                option("nullValue", "\\N").\
                schema(schema).\
                load("./dataset.csv")

我尝试使用DataType,ArrayType()作为朋友列表。理想情况下,我也需要解析元组中的好友ID。

0 个答案:

没有答案