如何配置此Java爬网程序

时间:2011-06-18 02:53:04

标签: java web-crawler

我想配置这个java爬虫(http://code.google.com/p/crawler4j/)。但我很困惑,我怎么能这样做,因为这是我第一次这样做。我已经下载了在该描述中编写的所有这两个文件( “其中一个包含crawler4j jar文件和配置文件,另一个包含crawler4j的依赖项。将所有这些文件放在类路径中。” )但我很困惑如何将这两个文件放在我的类路径中。我的类路径包含( .; C:\ Program Files(x86)\ Java \ jre6 \ lib \ ext \ Java的.zip; C:\应用\阿帕奇\ tomcat7 \ lib中\ servlet的api.jar文件; C:\应用\阿帕奇\ tomcat7 \ lib中\ JSP-api.jar文件; C:\应用\阿帕奇\ tomcat7 \ lib中\ EL- api.jar )。 任何建议将不胜感激,因为我是新手。

2 个答案:

答案 0 :(得分:0)

使用通配符将两个目录添加到类路径。有关详细信息,请参阅Setting the class path

答案 1 :(得分:0)

查看新的crawler4j github: https://github.com/yasserg/crawler4j

使用maven依赖系统,你的所有麻烦都将消失!:

<dependency>
    <groupId>edu.uci.ics</groupId>
    <artifactId>crawler4j</artifactId>
    <version>4.1</version>
</dependency>