如何有效遍历大量文本并解析多个项目?

时间:2019-01-04 19:30:38

标签: python python-3.x

我想我必须遍历许多文本块,这可以通过循环或单行find_all完成。这是我正在处理的文本的一小部分。

<tr role="row" class="even">
<td>

<td style="padding:0px; width:200px; height:10px;"><svg height="37" width="180px" id="task-run" style="display: block;">

</td>

“”不代表任何内容,例如:y="3"></text>

我有代码将所有内容附加到大列表,然后将其写入数据框。

masterlist = []
etc.
masterlist.append(cols)
etc.
df = pd.DataFrame(masterlist)

我只是不知道如何进行所有解析。

2 个答案:

答案 0 :(得分:2)

这对于Beautiful Soup来说似乎是一个很好的例子,它旨在从格式正确或不正确的HTML文档中提取文本和属性。

答案 1 :(得分:1)

1)如果您所需的所有信息都位于HTML内格式良好的表格中,则建议您尝试DataFrame.read_html。 https://pandas.pydata.org/pandas-docs/stable/generated/pandas.read_html.html

2)第二种选择是尝试使用@Tom提到的Beautiful Soup。

3)如果您面临大文件的挑战,则应尝试:Lazy Method for Reading Big File in Python?,然后逐行进行解析。