如何从pyspark中的链接中存储的数据制作数据框?

时间:2019-02-08 11:56:46

标签: scala pyspark databricks

静态数据存储在提供的链接上: https://assets.datacamp.com/production/course_4452/datasets/airports.csv

我已经使用urllib来获取字符串格式的数据,然后又将该数据转换为rdd,我也已经使用toDF()来创建新的数据帧,但是我无法从该数据中创建正确的数据帧。

1 个答案:

答案 0 :(得分:1)

这对我有用:-

import pandas as pd
airportdata = pd.read_csv("https://assets.datacamp.com/production/course_4452
               /datasets/airports.csv")
df = sqlContext.createDataFrame(airportdata)
df.take(5)