如何从html页面解析表

时间:2014-05-12 13:26:50

标签: python html parsing

我是python的新手,我已经花了好几个小时没有用到这个......

我正在尝试从网页中提取数据并将其保存在列表字典中,以便我可以将其显示为用户可以选择的枚举列表。

我想要的数据位于页面上唯一的表格中,每个条目都有一个唯一的类属性。

我已经尝试过使用SGMLParser来完成这项任务,但我老实说没有经验,我认为可能有一种方法可以使用字符串方法。我目前将整个文件存储在一个字符串中,但我无法解析它以挽救我的生命。如果有人能够至少指出我正确的方向,我会非常感激!

1 个答案:

答案 0 :(得分:2)

您应该查看ScrapyBeautiful Soup

解析从服务器返回的内容是HARD。 HTML变得非常疯狂和毛茸茸,并且经常不遵守规则。甚至不要尝试自己解析这些东西,使用框架来完成它。这将有助于您熟悉DOM,因为很多这些框架将以DOM形式向您呈现已解析的页面。然后,只需选择您想要的元素并获取其内容即可。