我想知道如何使用http协议使用Nutch-1.0抓取在互联网上提供的pdf文件
我可以使用file:// protocol而不是http协议
在本地文件系统上执行此操作答案 0 :(得分:0)
在nutch-site.xml文件中添加此属性,然后您将抓取pdf文件
<property>
<name>plugin.includes</name>
<value>protocol-httpclient|urlfilter-regex|parse-(html|text|pdf)|index-(basic|anchor)|query-(basic|site|url)|response-(json|xml)|summary-basic|scoring-opic|urlnormalizer-(pass|regex|basic)</value>
<description>protocol-httpclient|urlfilter-regex|parse-(html|text|pdf)|index-(basic|anchor)|query-(basic|site|url)|response-(json|xml)|summary-basic|scoring-opic|urlnormalizer-(pass|regex|basic)</description>
</property>