使用java从Url获​​取数据

时间:2016-06-28 08:41:15

标签: java url jsoup

在我的采访中我问过这个问题,并且我被要求实施它。问题如下:

您的申请

  1. 将获取linkedIn个人资料的用户名和密码
  2. 在www.linkedin.com页面上,使用它登录页面。
  3. 模拟个人资料的点击 - >编辑个人资料菜单
  4. 以下面的格式抓取下面的用户的页面并将其转储到文本文件中。 (提示:你可以使用漂亮的汤库)
  5. 在获取此URL时,您需要阅读以下信息并将其放在csv / excel文件中。

    有人可以告诉我如何做到这一点吗?它应该只使用java来完成。

2 个答案:

答案 0 :(得分:0)

我使用像Selenium http://www.seleniumhq.org/这样的Web浏览器自动化软件,这似乎可以解决这个问题。您可以选择任何绑定(Java,C#,Ruby,Python,JavaScript)来实现解决方案。

查看教程https://www.airpair.com/selenium/posts/selenium-tutorial-with-java

答案 1 :(得分:0)

它似乎与网络爬虫有关,我们可以很好地使用JSOUP库来做到这一点。 您必须使用JSOUP库读取实现,我们可以过滤掉类似

的链接
  

https://www.linkedin.com/profile/edit?trk=nav_responsive_sub_nav_edit_profile

如果您看到我们将关键字设为edit_profile,可以用来过滤掉我们需要的结果。

链接你应该关注并探索有关JSOUP的更多信息 Webcrawler using JSOUP