在网上抓取最佳实践

时间:2014-10-23 14:20:40

标签: java python language-agnostic web-scraping

假设:

客户端

1 - 数据库

2 - 编码语言

服务器端:

1 - 一个显示自己的数据库结果的网站(按时间顺序排列的博客帖子列表,如果网站/作者更新帖子,可以更改),每个帖子都有一个不会改变的唯一ID。 / p>

总的来说,是否有人有任何好的资源帮助他们了解如何最好地解决这个问题?

计算上这种类型的工作很耗时,这只是因为抓取网站和等待结果的性质(至少对我而言)。

我的典型过程(伪):

for each page on url:
  for each post on page:
      id = getID(post)
      data1...dataN = getData(post)
      call sql.execute("insert ... on duplicate key update")

sql部分繁琐但效率不高,我觉得必须有更好的方法来完成我在这个流程中所做的事情。

总体目标始终是:

1 - 从网站获取我关心的数据(在这里确认CSS /网站可以改变平均我在使用xpath查找数据的位置)并在我已经指出我已经捕获了这些数据时停止(意思是:我是在我的数据库中已有的帖子ID,假设帖子总是按降序排列,ID不会改变。)

2 - 通过以后的分析以最适合我试图解决的问题类型的语言提供数据。

平均而言(这无关紧要)我在这里使用的包是: 美丽的汤,硒,机械化等。

0 个答案:

没有答案