应用错误收集

我在csv中具有以下形式的数据集：

5504 {(19410,0),(184537,0),(185652,0),(609494,0),(1377433,512),(1527570,0)}

第一个是ID，字典是朋友ID及其关系的列表。我看不懂它。

from pyspark.sql.types import *



schema = StructType([
            StructField("id", StringType(), True),
            StructField("list_of_friends", DataType(), True)
            ])

df = spark.read.format("csv").\
                option("header", "false").\
                option("nullValue", "\\N").\
                schema(schema).\
                load("./dataset.csv")

我尝试使用DataType，ArrayType（）作为朋友列表。理想情况下，我也需要解析元组中的好友ID。

在pyspark

0 个答案: