从网站获取数据

时间:2012-05-16 02:07:35

标签: javascript jquery html screen-scraping

如何从网站上删除(获取)数据。

示例: - 我有一个网站说www.getfinancialdata.com

现在我想通过运行脚本/ url frm我的系统来获取数据到这个网站然后

对数据进行排序并保存在电子表格中。

我已经为一个简单的网站做了这件事,我可以在网页的正文中查看HTML内容(在我查看源代码之后) 但我的问题是点compex当我查看源我看到它是DOM数据(没有简单的html内容)有jquery函数填充数据。 我可以从DOM(Jquery)中获取数据

2 个答案:

答案 0 :(得分:3)

我已成功使用Selenium来抓取使用大量JavaScript的网站。如果它出现在浏览器中,您可以使用Selenium获取它。它是Java,但有一些绑定可以从你最喜欢的脚本语言驱动它;我使用Python。

您可能还想查看无头浏览器,例如CrowbarPhantomJS。我喜欢selenium的是能够观看它驱动浏览器有助于我的调试。另外还有一个Firefox插件(IDE)可以生成一些基本代码来帮助你入门......你只需点击它就会记录你所做的事情(这些代码肯定总是需要按摩/大量编辑,但是当你学习如何做这件事时,这很有帮助。)

请注意,这是令人难以置信的事情。特别是大规模。网站是混乱的,它们彼此不同,并且随着时间的推移而变化。根据你的态度,这会让你感到愤怒或有趣的挑战。

答案 1 :(得分:0)

如果“www.getfinancialdata.com”由您自己拥有,建议您使用webservice或webapi与您的客户进行通信。您将获得干净的xml数据或json数据,而不是html代码。