Question

我想知道如何使用http协议使用Nutch-1.0抓取在互联网上提供的pdf文件

我可以使用file：// protocol而不是http协议

在本地文件系统上执行此操作

Answer 1

在nutch-site.xml文件中添加此属性，然后您将抓取pdf文件

<property>
<name>plugin.includes</name>
<value>protocol-httpclient|urlfilter-regex|parse-(html|text|pdf)|index-(basic|anchor)|query-(basic|site|url)|response-(json|xml)|summary-basic|scoring-opic|urlnormalizer-(pass|regex|basic)</value>
<description>protocol-httpclient|urlfilter-regex|parse-(html|text|pdf)|index-(basic|anchor)|query-(basic|site|url)|response-(json|xml)|summary-basic|scoring-opic|urlnormalizer-(pass|regex|basic)</description>
</property>

如何使用http协议使用Nutch-1.0爬网在互联网上提供的pdf文件

1 个答案: