如何在网站的任何地方找到单词的所有实例

时间:2014-03-10 04:15:04

标签: web-crawler

我想在我的网络应用程序中列出一个单词的所有出现。 我已经看过的几个地方是HTML页面,代码文件,数据库,上传的文档,图像,视频。 请告诉我其他我应该看的地方,这个词可以出现在哪里。 我知道爬虫可以用于此任务,但如果有人在过去有相同的经验,那么请建议一些好的自动化工具,可以在网站上轻松找到这个词。

1 个答案:

答案 0 :(得分:0)

由于文件是本地文件,我认为您不需要爬虫。您只需要搜索文件。

正如我在评论中所说,操作系统本身应该能够找到最多的事件。

程序ack应该能够做你想要的。它是用Perl编写的,所以它完全可以移植到Windows上。这是Windows上的SO question about installing it。这适用于所有HTML文件和源代码。

一些警告:

  • 我不确定这对数据库有多好。它完全取决于数据库如何存储数据。您应该真正寻找特定数据库的搜索工具。
  • 通过搜索图片和视频中的作品,我不确定您的意思。您是否期望能够自动查找图像/视频中的任何文本并进行解析?这种搜索功能并不存在。
  • “上传文件”......什么样的文件?能够再次找到该单词完全取决于文档的编码方式。如果它以明文形式存储东西,那么ack会找到它。如果它类似于Word文档,那么您可能只需要使用Word进行搜索,除非有一些用于搜索我从未听说过的Word文档的特定工具。