Question

我以无组织的方式获取了文本文件，因此需要从中使文本文件成为有组织的数据框。

I used the code:
text = sc.textFile(...)
log = text.map (...).filter(...)

因此，日志中的每个元素均采用以下文本格式：

name: server-link
description: success scanning 
auth_code: 123456789

现在，我要创建一个具有列名['Name'，'Description'，'auth_code']的数据框，其中将包含来自日志中所有元素的所有信息。

我该怎么办？

谢谢！

Answer 1

构建数据框的一种方法是先创建一个普通的python列表列表，其中第一行包含列标题，其余各行是数据框值。然后，通过以下命令将这样的列表列表转换为数据框：

df = pd.DataFrame(table[1:], columns=table[0])

在您的情况下，您希望一次读取输入的三行，然后从该行开始建立表格。例如。像（未经测试）这样的东西：

lines = text.split('\n')
table = [('name','description','auth_code')]
i=0
while i<len(lines):
    row = [line[3*i+j].split(': ')[1] 
           for j in range(3)]
    table += [row]
    i+= 1
df = pd.DataFrame(table[1:],columns=table[0])

从文本文件中的数据制作数据框

1 个答案: