无法从网页

时间:2016-02-10 10:10:05

标签: javascript html5 jaunt-api

我正在尝试从以下位置获取登录表单:

https://www.etoro.com/login

当我在Chrome中检查时,我可以看到该元素,但是当我在Java中使用jaunt api时,我无法获得该表单。

userAgent = new UserAgent();
userAgent.visit("https://etoro.com/login");
List<Form> forms = userAgent.doc.getForms();
System.out.println(forms.size()); // 0

我对HTML的经验很少,所以任何方向都会很棒!

这是我的第一篇文章,所以如果我没有正确完成某些事情,请告诉我。

非常感谢!

1 个答案:

答案 0 :(得分:0)

嗯,你对一个简单的Java网络刮刀感到不快。

如果您在浏览器中查看页面的来源,您会看到该页面主要由长<script>组成。然后,浏览器使用Javascript创建整个登录表单。

如果你绝对必须抓住这个确切的表格,你需要一个可以执行Javascript的工具。为此,您可以使用PhantomJS。这基本上是一个完整的浏览器,可以使用Javascript API进行控制。

在Google上搜索phantomjs web scraping以帮助您入门。