使用python从网站中提取数据

时间:2011-08-31 19:17:09

标签: python regex django

我对网络开发很陌生,我对我想要探索的内容有所了解,并且我想知道我应该使用哪些工具。我知道python并且最近一直在学习django,所以我最好将它们合并。

我想要做的是与我认为的一些基本的html解析和正则表达式的使用有关。基本上,我希望能够将来自多个网站的某些有用信息聚合到一个站点中。例如,假设有十几所高中的毕业日期,时间和地点,我有兴趣知道。如何呈现每个高中网站上的信息大致相似,所以我想在“位置”或“地点”,“时间”,“日期”等之后提取单词的数据然后自动发布在我的网站,我也希望它更新,如果任何信息恰好在任何高中网站上发生变化。

你会用什么来完成这项任务?另外,如果你知道任何有用的教程,资源等,你可以指点我,非常感谢!

2 个答案:

答案 0 :(得分:3)

对于提取部分,我认为你最好的选择是Beautiful soup,主要是因为它易于使用并且会尝试解析任何破坏的xml / html。

答案 1 :(得分:1)

查看BeautifulSoup

更新

如果您想填写表单,可以使用mechanize