我在csv中具有以下形式的数据集:
5504 {(19410,0),(184537,0),(185652,0),(609494,0),(1377433,512),(1527570,0)}
第一个是ID,字典是朋友ID及其关系的列表。 我看不懂它。
from pyspark.sql.types import *
schema = StructType([
StructField("id", StringType(), True),
StructField("list_of_friends", DataType(), True)
])
df = spark.read.format("csv").\
option("header", "false").\
option("nullValue", "\\N").\
schema(schema).\
load("./dataset.csv")
我尝试使用DataType,ArrayType()作为朋友列表。理想情况下,我也需要解析元组中的好友ID。