从文本文件中的数据制作数据框

时间:2018-07-07 20:40:43

标签: python dataframe pyspark apache-spark-sql bigdata

我以无组织的方式获取了文本文件,因此需要从中使文本文件成为有组织的数据框。

I used the code:
text = sc.textFile(...)
log = text.map (...).filter(...)

因此,日志中的每个元素均采用以下文本格式:

name: server-link
description: success scanning 
auth_code: 123456789

现在,我要创建一个具有列名['Name','Description','auth_code']的数据框,其中将包含来自日志中所有元素的所有信息。

我该怎么办?

谢谢!

1 个答案:

答案 0 :(得分:-1)

构建数据框的一种方法是先创建一个普通的python列表列表,其中第一行包含列标题,其余各行是数据框值。然后,通过以下命令将这样的列表列表转换为数据框:

df = pd.DataFrame(table[1:], columns=table[0])

在您的情况下,您希望一次读取输入的三行,然后从该行开始建立表格。例如。像(未经测试)这样的东西:

lines = text.split('\n')
table = [('name','description','auth_code')]
i=0
while i<len(lines):
    row = [line[3*i+j].split(': ')[1] 
           for j in range(3)]
    table += [row]
    i+= 1
df = pd.DataFrame(table[1:],columns=table[0])