使用“荒谬”标签刮取网页

时间:2017-10-31 18:45:12

标签: python html web-scraping

我正在尝试建立一个网络刮板来汇总州级众议院和参议院法案的信息。我正在使用Python,我可以从页面中提取HTML,但解析它给我带来了困难。例如,New Hampshire bill页面用“无意义”命名的标签包装标签中的信息。这是一个示例页面:http://www.gencourt.state.nh.us/bill_status/billText.aspx?sy=2017&id=14&txtFormat=html。我如何从长长的标签列表中提取例如账单号?

2 个答案:

答案 0 :(得分:0)

如果我不得不猜测,我会说标记是由某种WYSIWYG编辑器生成的。 (存在无效的CSS属性,如tab-stops表明它可能是从文字处理器输出的。)如果是这种情况,输出中类的确切用法不一定在文档之间保持一致。

考虑到这一点,您最好的选择可能是完全忽略标记并解析文本。

答案 1 :(得分:0)

在浏览器中打开页面,右键单击您想要提取的内容,然后使用 Inspect ,查看用于该元素的类名。例如,如果您检查帐单编号,您会看到它是

<span class="cs4904F745">76</span>

因此,在您的网络抓取代码中,搜索课程cs4904F745以获取帐单编号。这些东西可能看起来是随机的,但我检查了一些文件并且它们是一致的。

您可以使用BeautifulSoup库来解析HTML并搜索您想要的内容。