我正在尝试在Windows 7中配置nutch,我已经按照以下步骤进行了操作
我已经下载并解压缩了apache nutch 1.8, 我在conf / nutch-site.xml中指定了代理名称,如
<configuration>
<property>
<name>http.agent.name</name>
<value>My Nutch Spider</value>
</property>
</configuration>
在apache home中按照命令执行 - &gt;
mkdir -p urls
cd urls
touch seed.txt - &gt;在urls /下创建一个文本文件seed.txt,其中包含以下内容(每个网站需要一个网址,以便您希望Nutch抓取)。
nutch.apache.org /
在conf / regex-urlfilter.txt中使用 - &gt;编辑+ ^([a-z0-9] *。)* nutch.apache.org/但在我做的时候在bin中
bin / nutch crawl urls -dir crawl -depth 3 -topN 5
发生错误 - &gt; bash:nutch:命令未找到
为什么?
答案 0 :(得分:0)
Nutch脚本是为linux环境编写的。
你可以使用它(虽然它似乎需要做更多的工作才能完成):
https://github.com/veggen/nutch-windows-script
按照此处的建议设置Cygwin: