我想了解创建python程序的最佳方法,该程序会定期抓取一个包含多个线程的Web论坛,每个线程都有来自不同用户的多个帖子。我不是在询问要使用的软件包,而是要该解决方案的高级体系结构。
对于引荐涉及废弃大型网络论坛的帖子的引用将受到高度赞赏。
答案 0 :(得分:1)
有很多方法可以做到这一点。但请记住几件事: 1.您尝试提取/抓取的内容应该是页面源代码的一部分,而不是由javascript或其他类似方式生成的。 2.如果存在复杂的身份验证过程,则可能需要动脑筋。对于这种情况,最好在Selenium上使用PhantomJS。
使用您可以使用的工具: 1.要发送HTTP GET和POST请求,可以使用Python的Requests模块。 2.该模块具有下载页面源代码的功能。 3.要解析该源代码并获取内容,您可以使用minidom解析器或BeautifulSoup。