我有一个旧工具,一个(前)同事几年前和Jaxer一起写过,我想替换/重写。
Jaxer是一个基于无头Mozilla / Gecko-Browser的(废弃的)服务器端框架,允许您使用JavaScript和DOM服务器端。
由于Jaxer被放弃了,因为我在新计算机上安装和运行带有Jaxer的Aptana Studio 1.5时遇到大问题,我正在寻找一个库/框架/我可以基于新版本的东西。
此工具仅在Aptana Studio(Jaxer的IDE)内部本地运行,并且从未打算成为实际的Web应用程序。它通过将页面逐页加载到服务器端Mozilla来抓取客户网站。为了做到这一点,它使用jQuery和预定义的CSS选择器来查找菜单中的链接并从页面中解析其他信息。最终结果基本上是一个美化的站点地图。
如果可能的话,我想保留这种操作方法并继续使用jQuery / JavaScript / DOM来加载和解析/访问页面,但它可以包含在基于另一种语言(如Java)的框架中。我考虑过自己写一些基于Gecko的东西,但这似乎有点过头,所以我愿意接受其他建议。