我刚开始使用jsoup和抓取/抓取。我的目标是从零售商那里获取定价,描述和图像。我遇到了jsoup的问题,当我在我的IDE(Eclipse)中测试它时,我能够检索我需要的所有元素和数据,但是当我将代码部署到我的app服务器时(在ubuntu盒子上运行wildfly)并从应用程序界面运行相同的方法,这些元素不存在。该网站连接,但似乎返回有关该网站的一般信息,而不是特定产品。
要明确的是,刮刀可以在几个站点上正常工作,只有少数站点可以满足这种行为。 (在Js重型网站上,我使用了selenium独立服务器w无头镀铬,如果有点慢的话,效果还不错。)
非常感谢任何帮助!
更新03/17:我仍然感到神秘,我尝试用无头镀铬从jsoup切换到selenium并且仍然得到完全相同的行为。我不知道它是Windows和Linux的功能,还是IDE中的应用服务器或其他功能。但它可以在IDE之外按预期工作,当它从应用程序运行时,网站上的内容就不存在了。
更新03/20:非常确定它是某种linux vs windows问题。我在Windows上部署了相同版本的wildfly并点击了相同的休息端点,它能够很好地抓取相关页面。