使用Web Crawler抓取Web数据

时间:2011-03-30 06:05:02

标签: java web-crawler

我想使用网络抓取工具抓取特定网站。该网站是一个学习管理系统,许多学生上传他们的作业,项目演示等。我的问题是,我可以使用网络爬虫并下载已在学习管理系统中上传的文件。在我下载它们之后,我想在它们上创建一个索引,以便查询文档集。用户可以将我的应用程序用作搜索引擎。爬虫可以这样做吗?我知道webeater(用Java编写的Crawler)

2 个答案:

答案 0 :(得分:0)

  1. 下载Java SingleThread中的文件。
  2. 解析文件(你可以从nutch的解析插件中获取想法)。
  3. 使用lucene创建索引

答案 1 :(得分:0)

如果您想使用真实的摄像头,请先与用户http://www.httrack.com/

它为您提供了很多选项,可以在网页(包括Flash)上复制网站或内容。它适用于Windows和Mac。

然后你可以按照上面的建议做第2步和第3步。