我想开发一个应用程序,它会自动(基于某些逻辑)抓取网页。自动点击并在页面上发布以测试它们。可以把它想象为Selenium。
对于简单的网页,我可以轻松完成我的HTML代码,然后向下一页的服务器发出新请求。问题是处理Ajax页面。 如何处理HTML中的JS代码?
为了打破它,问题的不同部分将是。 JS引擎必须: -
典型的JS代码执行以下任务: -
操纵现有的DOM元素。
a。这可能是装饰性的(如改变高度等)。用户代码对此没有兴趣,这将非常困难,因为它需要布局引擎。
湾这可以是属性的操纵。用户代码会对此感兴趣。
添加新的DOM元素。
你能告诉我任何可以用来实现所有这些的可嵌入式JS引擎吗?我选择的语言是Java,但C / C ++或Python都可以。我不确定,Mozilla Rhino是否适合上述法案?