如何使用http协议使用Nutch-1.0爬网在互联网上提供的pdf文件

时间:2009-10-09 15:11:24

标签: filesystems nutch web-crawler

我想知道如何使用http协议使用Nutch-1.0抓取在互联网上提供的pdf文件

我可以使用file:// protocol而不是http协议

在本地文件系统上执行此操作

1 个答案:

答案 0 :(得分:0)

在nutch-site.xml文件中添加此属性,然后您将抓取pdf文件

<property>
<name>plugin.includes</name>
<value>protocol-httpclient|urlfilter-regex|parse-(html|text|pdf)|index-(basic|anchor)|query-(basic|site|url)|response-(json|xml)|summary-basic|scoring-opic|urlnormalizer-(pass|regex|basic)</value>
<description>protocol-httpclient|urlfilter-regex|parse-(html|text|pdf)|index-(basic|anchor)|query-(basic|site|url)|response-(json|xml)|summary-basic|scoring-opic|urlnormalizer-(pass|regex|basic)</description>
</property>