如何使用Python抓取网络论坛

时间:2018-06-27 08:49:33

标签: python web-scraping beautifulsoup scrapy web-crawler

我想了解创建python程序的最佳方法,该程序会定期抓取一个包含多个线程的Web论坛,每个线程都有来自不同用户的多个帖子。我不是在询问要使用的软件包,而是要该解决方案的高级体系结构。

对于引荐涉及废弃大型网络论坛的帖子的引用将受到高度赞赏。

1 个答案:

答案 0 :(得分:1)

有很多方法可以做到这一点。但请记住几件事: 1.您尝试提取/抓取的内容应该是页面源代码的一部分,而不是由javascript或其他类似方式生成的。 2.如果存在复杂的身份验证过程,则可能需要动脑筋。对于这种情况,最好在Selenium上使用PhantomJS。

使用您可以使用的工具: 1.要发送HTTP GET和POST请求,可以使用Python的Requests模块。 2.该模块具有下载页面源代码的功能。 3.要解析该源代码并获取内容,您可以使用minidom解析器或BeautifulSoup。