Question

我想我必须遍历许多文本块，这可以通过循环或单行find_all完成。这是我正在处理的文本的一小部分。

<tr role="row" class="even">
<td>

<td style="padding:0px; width:200px; height:10px;"><svg height="37" width="180px" id="task-run" style="display: block;">

</td>

“”不代表任何内容，例如：y="3"></text>

我有代码将所有内容附加到大列表，然后将其写入数据框。

masterlist = []
etc.
masterlist.append(cols)
etc.
df = pd.DataFrame(masterlist)

我只是不知道如何进行所有解析。

Answer 1

这对于Beautiful Soup来说似乎是一个很好的例子，它旨在从格式正确或不正确的HTML文档中提取文本和属性。

Answer 2

1）如果您所需的所有信息都位于HTML内格式良好的表格中，则建议您尝试DataFrame.read_html。 https://pandas.pydata.org/pandas-docs/stable/generated/pandas.read_html.html

2）第二种选择是尝试使用@Tom提到的Beautiful Soup。

3）如果您面临大文件的挑战，则应尝试：Lazy Method for Reading Big File in Python?，然后逐行进行解析。

如何有效遍历大量文本并解析多个项目？

2 个答案: