如何从网站上删除(获取)数据。
示例: - 我有一个网站说www.getfinancialdata.com
现在我想通过运行脚本/ url frm我的系统来获取数据到这个网站然后
对数据进行排序并保存在电子表格中。
我已经为一个简单的网站做了这件事,我可以在网页的正文中查看HTML内容(在我查看源代码之后) 但我的问题是点compex当我查看源我看到它是DOM数据(没有简单的html内容)有jquery函数填充数据。 我可以从DOM(Jquery)中获取数据
答案 0 :(得分:3)
我已成功使用Selenium来抓取使用大量JavaScript的网站。如果它出现在浏览器中,您可以使用Selenium获取它。它是Java,但有一些绑定可以从你最喜欢的脚本语言驱动它;我使用Python。
您可能还想查看无头浏览器,例如Crowbar和PhantomJS。我喜欢selenium的是能够观看它驱动浏览器有助于我的调试。另外还有一个Firefox插件(IDE)可以生成一些基本代码来帮助你入门......你只需点击它就会记录你所做的事情(这些代码肯定总是需要按摩/大量编辑,但是当你学习如何做这件事时,这很有帮助。)
请注意,这是令人难以置信的事情。特别是大规模。网站是混乱的,它们彼此不同,并且随着时间的推移而变化。根据你的态度,这会让你感到愤怒或有趣的挑战。
答案 1 :(得分:0)
如果“www.getfinancialdata.com”由您自己拥有,建议您使用webservice或webapi与您的客户进行通信。您将获得干净的xml数据或json数据,而不是html代码。