Question

最近有人问了几个问题，但还没找到我想要的东西。

我正试图将http://www.futbol24.com/Live/?__igp=1&LiveDate=20141106的所有比赛打印出来，包括时间，主队和客场球队。我理解在页面出现后加载内容。

我被告知使用Selenium然后在结果上使用jSoup来获取我想要的数据。有没有人有他们可以告诉我的教程或一些示例代码，以及如何在上面的网站上做到这一点？

非常感谢任何例子，谢谢

Answer 1

如果您要搜索某个人的网站，请注意以下几点：

获取该网站所有者的许可！如果您不这样做，您将会惹恼所有者并在最佳情况下被列入黑名单，或者在最坏的情况下提起诉讼
查看该网站是否公开api。这总是更好的抓取网站的方式。
更适合此任务的研究工具/库。其中一些包括curl，wget，httpbuilder，.....根据您的舒适/知识水平，您可能需要研究基础技术：http ，rest，.....
selenium是浏览器应用程序的功能测试库，这使得它成为此任务的差选择。

PS：我完全期望这会被推迟/关闭，因为讨论/意见是off-topic for SO。

Answer 2

这对我有用：

System.setProperty("webdriver.chrome.driver","C:\\tools\\chromedriver_win32\\chromedriver.exe");
WebDriver driver = new ChromeDriver();
driver.get(url);
Document doc = Jsoup.parse(driver.getPageSource());
// Jsoup code here to parse/scrape data
driver.close();
driver.quit();

Selenium jSoup从Javascript网页获取数据

2 个答案: