我正在从事一个项目,该项目读取几千个文本文档,从它们创建一个数据框,然后在该数据框上训练模型。代码中最耗时的方面是数据帧的创建。
这是我创建数据框的方法:
我首先创建了 4-5 个列表,创建了一个以 'Column-name' 为键,以前面的列表为值的字典。然后用 pd.DataFrame
给出字典。我在每个步骤后都添加了打印更新,数据框创建步骤花费的时间最多。
我使用的方法:
line_of_interest = []
line_no = []
file_name = []
for file in file_names:
with open(file) as txt:
for i, line in enumerate(txt):
if 'word of interest' in line:
line_of_interest.append(line)
line_no.append(i)
file_name.append()
rows = {'Line_no':line_no,'Line':line_of_interest,'File':file_name}
df = pd.DataFrame(data = rows)
我想知道是否有一种更高效、更省时的方法来创建数据帧。我试图寻找类似的问题,但我唯一能找到的是 "Most Efficient Way to Create Pandas DataFrame from Web Scraped Data"。
如果有类似的问题并有好的答案,请告诉我。我所知道的创建数据帧的唯一其他方法是在我发现它们时逐行附加所有值,我不知道检查这是否更快的方法。请告诉我。谢谢!