我目前正在使用Heritrix,我有一个标准安装(这个:http://builds.archive.org/maven2/org/archive/heritrix/heritrix/3.2.0/),它运行正常。
但现在我想写并添加我自己的扩展名,例如更改应该被抓取的网址的优先级或只是一个简单的提取器。我可以检查现有提取器的java代码,但是如何将其添加到爬虫?
我尝试将我的java测试项目导出到jar文件,并将此文件放在Heritrix的lib文件夹中(其他库是)。此外,我在我的作业的cxml文件中添加了一个bean。
但是在开始之后我得到了这个错误:2014-11-07T19:51:40.296Z SEVERE无法实例化bean类[myModule.TestClass]:找不到默认构造函数;嵌套异常是java.lang.NoSuchMethodException:myModule.TestClass。();无法创建bean'myModule.TestClass#0'
它只是在一个新项目中重命名的extractorHTML并导出到一个jar文件。
知道出了什么问题吗?我阅读了所有文档,但只有解释如何编写扩展而不是如何添加它?
问候并谢谢你: - )
答案 0 :(得分:0)
我认为问题是类加载器需要一个默认构造函数(一个构造函数 - 它不带参数)添加一个默认构造函数
public YourClass() { }
以及用于设置成员变量的必需getter和setter。