应用错误收集

使用Web Crawler抓取Web数据

时间：2011-03-30 06:05:02

标签： java web-crawler

我想使用网络抓取工具抓取特定网站。该网站是一个学习管理系统，许多学生上传他们的作业，项目演示等。我的问题是，我可以使用网络爬虫并下载已在学习管理系统中上传的文件。在我下载它们之后，我想在它们上创建一个索引，以便查询文档集。用户可以将我的应用程序用作搜索引擎。爬虫可以这样做吗？我知道webeater（用Java编写的Crawler）

2 个答案:

答案 0 :(得分：0)

下载Java SingleThread中的文件。
解析文件（你可以从nutch的解析插件中获取想法）。
使用lucene创建索引

答案 1 :(得分：0)

如果您想使用真实的摄像头，请先与用户http://www.httrack.com/

它为您提供了很多选项，可以在网页（包括Flash）上复制网站或内容。它适用于Windows和Mac。

然后你可以按照上面的建议做第2步和第3步。

使用Web Crawler抓取Web数据
如何使用OAuth抓取Twitter数据
如何使用PHP抓取表单数据
使用CrawlDbReader读取Nutch爬网数据
使用NCrawler运行增量爬网
抓取特定的网站数据
使用scrapy爬行数据时无法获取项目
填充文本框后使用ajax爬行的网页
使用硒爬网SPA页面，获取错误数据
大型网站抓取时抓取速度变慢

我写了这段代码，但我无法理解我的错误
我无法从一个代码实例的列表中删除 None 值，但我可以在另一个实例中。为什么它适用于一个细分市场而不适用于另一个细分市场？
是否有可能使 loadstring 不可能等于打印？卢阿
java中的random.expovariate()
Appscript 通过会议在 Google 日历中发送电子邮件和创建活动
为什么我的 Onclick 箭头功能在 React 中不起作用？
在此代码中是否有使用“this”的替代方法？
在 SQL Server 和 PostgreSQL 上查询，我如何从第一个表获得第二个表的可视化
每千个数字得到
更新了城市边界 KML 文件的来源？