我是python的新手,我已经花了好几个小时没有用到这个......
我正在尝试从网页中提取数据并将其保存在列表字典中,以便我可以将其显示为用户可以选择的枚举列表。
我想要的数据位于页面上唯一的表格中,每个条目都有一个唯一的类属性。
我已经尝试过使用SGMLParser来完成这项任务,但我老实说没有经验,我认为可能有一种方法可以使用字符串方法。我目前将整个文件存储在一个字符串中,但我无法解析它以挽救我的生命。如果有人能够至少指出我正确的方向,我会非常感激!
答案 0 :(得分:2)
您应该查看Scrapy或Beautiful Soup。
解析从服务器返回的内容是HARD。 HTML变得非常疯狂和毛茸茸,并且经常不遵守规则。甚至不要尝试自己解析这些东西,使用框架来完成它。这将有助于您熟悉DOM,因为很多这些框架将以DOM形式向您呈现已解析的页面。然后,只需选择您想要的元素并获取其内容即可。