我想我必须遍历许多文本块,这可以通过循环或单行find_all完成。这是我正在处理的文本的一小部分。
<tr role="row" class="even">
<td>
<td style="padding:0px; width:200px; height:10px;"><svg height="37" width="180px" id="task-run" style="display: block;">
</td>
“”不代表任何内容,例如:y="3"></text>
我有代码将所有内容附加到大列表,然后将其写入数据框。
masterlist = []
etc.
masterlist.append(cols)
etc.
df = pd.DataFrame(masterlist)
我只是不知道如何进行所有解析。
答案 0 :(得分:2)
这对于Beautiful Soup来说似乎是一个很好的例子,它旨在从格式正确或不正确的HTML文档中提取文本和属性。
答案 1 :(得分:1)
1)如果您所需的所有信息都位于HTML内格式良好的表格中,则建议您尝试DataFrame.read_html。 https://pandas.pydata.org/pandas-docs/stable/generated/pandas.read_html.html
2)第二种选择是尝试使用@Tom提到的Beautiful Soup。
3)如果您面临大文件的挑战,则应尝试:Lazy Method for Reading Big File in Python?,然后逐行进行解析。