Selenium jSoup从Javascript网页获取数据

时间:2014-11-05 20:29:31

标签: java javascript selenium jsoup

最近有人问了几个问题,但还没找到我想要的东西。

我正试图将http://www.futbol24.com/Live/?__igp=1&LiveDate=20141106的所有比赛打印出来,包括时间,主队和客场球队。我理解在页面出现后加载内容。

我被告知使用Selenium然后在结果上使用jSoup来获取我想要的数据。有没有人有他们可以告诉我的教程或一些示例代码,以及如何在上面的网站上做到这一点?

非常感谢任何例子,谢谢

2 个答案:

答案 0 :(得分:1)

如果您要搜索某个人的网站,请注意以下几点:

  1. 获取该网站所有者的许可!如果您不这样做,您将会惹恼所有者并在最佳情况下被列入黑名单,或者在最坏的情况下提起诉讼
  2. 查看该网站是否公开。这总是更好的抓取网站的方式。
  3. 更适合此任务的研究工具/库。其中一些包括,.....根据您的舒适/知识水平,您可能需要研究基础技术:,.....
  4. 是浏览器应用程序的功能测试库,这使得它成为此任务的选择。
  5. PS:我完全期望这会被推迟/关闭,因为讨论/意见是off-topic for SO

答案 1 :(得分:0)

这对我有用:

System.setProperty("webdriver.chrome.driver","C:\\tools\\chromedriver_win32\\chromedriver.exe");
WebDriver driver = new ChromeDriver();
driver.get(url);
Document doc = Jsoup.parse(driver.getPageSource());
// Jsoup code here to parse/scrape data
driver.close();
driver.quit();