寻找汇总来自不同网站的信息/数据的方法

时间:2017-08-29 23:54:25

标签: javascript python web-scraping cross-domain aggregate

我是一名刚毕业的程序员,拥有一些Python和Javascript的经验,我正在尝试开发一个网站或只是一个后端系统来汇总来自在线市场网站的信息。没有任何API(或者我找不到任何API)。理想情况下,我还希望能够写入本地存储的系统能够在某种数据库中跟踪数据随时间的变化,但这有点过头了。

我已经捣毁了一些可以获取我想要的数据的JavaScript,但显然似乎没有办法访问或处理来自其他网站的数据,因为数据安全保护或将数据保存到本地存储,以便从其他页面读取。我知道有很多方法可以汇总数据,因为我已经看过其他网站这样做了。

我可以使用urllib2在Python中加载网站,并使用正则表达式从一些页面解析我想要的内容,但是在我可以访问我想要的数据之前,我需要在几个所需的网站上登录网站收集。

由于我对编程比较陌生,是否有理想的工具/编程语言可以简化或简化我想要做的事情?

如果没有,你能否指出我正确的方向,我将如何解决这个问题?在进行一些搜索之后,似乎普遍缺乏跨域数据收集和聚合。也许我甚至没有使用正确的术语来描述我正在尝试做的事情。

无论你怎么看待这个,请帮忙! : - )

1 个答案:

答案 0 :(得分:0)

我建议你使用selenium webdriver登录获取cookie,并使用请求库来废弃消息。这就是我公司在抓取系统中所做的事情。如果你只使用selenium webdriver,你将需要很多内存和cpu容量。 如果你擅长html和js,那么你可以使用请求库来模拟日志记录。 对于您必须登录的网站,最重要的是获取cookie。