使用Python搜索新闻网站

时间:2012-10-23 22:04:36

标签: python json reddit

我是Python的新手,阅读了半个关于Python3的初学者书。我想这样做会让我去学习一些我真正想做的事情,而不是经历一些“无聊”的练习。

我想构建一个应用程序,它会将Reddit抓取到顶部URL,然后将这些应用程序发布到我自己的页面上。它每天只检查几次,所以根本没有锤击。

我想将Reddit json(http://www.reddit.com/.json)和其他subreddits json解析为URL,我可以组织到我自己的顶级列表中,并在我的页面上拥有自己的类别,所以我不必继续访问Reddit。

该网站将是一个Wordpress模板,其数据库托管在自己的服务器(mysql)上。我将使用RDS,ELB,自动扩展和Web服务器的EC2实例在AWS上托管此内容。

我的问题是:

- 保持Python scraper应用程序在它自己的服务器上运行是否有意义,然后服务器将已删除的URL写入数据库?

- 我听说拆分应用程序可能是有意义的,而另一个人在完成阅读时会进行阅读,这是什么意思?

- Python代码的流程是什么样的?我可以摸索着写它,但我不完全确定它应该如何流动。

- 我还没有想到这里,有什么提示吗?

1 个答案:

答案 0 :(得分:2)

  

保持Python scraper应用程序运行是否有意义   它是自己的服务器,然后将已删除的URL写入数据库?

是的,这是一个好主意。我会设置一个cron工作来经常运行程序。根据您期望的负载,它不一定需要在自己的服务器上。我会将它作为自己的应用程序。

  

我听说拆分应用程序可能是有意义的   阅读而另一方写作,这是什么意思?

我假设有人说这意味着你应该有一个应用程序写入你的数据库(你的python脚本)和一个从数据库中读取URL的应用程序(你的WordPress包装器,或者可能是另一个Python脚本来写一些东西) WordPress可以理解)。

  

Python代码的流程是什么样的?我可以摸索我的方式   写它但我不完全确定应该怎么做   流动。

这在程序员中间有点宗教问题。但是我觉得你的程序应该足够简单。我只是抓住JSON并有一个查询,如果该条目尚不存在,则插入数据库。

  

我还有什么别的想法,有什么提示吗?

我个人会将urllib2和MySQLdb模块用于Python脚本。祝你好运!