bash脚本:网站中的单词出现

时间:2012-08-03 22:53:31

标签: linux bash shell dns

我需要创建一个脚本来计算网页上的单词出现次数

我正在做的是计算随机IP(避免多次检查相同的ips),使用nmap查看端口80是否打开以知道它是否是Web服务器然后我使用w3m来创建http页面作为文件。 在容易计算单词出现之后

我遇到了一些问题和问题

  • 这个过程需要很多,但我想不出任何方法可以让它更快
  • 许多打开端口80的ips都不是网站,它们没有启动,可能会遇到一些问题,有没有办法只查看已启动的网站?
  • 此方法只检查网站索引页面中的单词出现次数,有没有办法检查其他公共页面?

非常感谢

1 个答案:

答案 0 :(得分:-1)

我用awk做类似的事情。 awk非常适合文本解析。我所做的是分析Apache日志中每个IP地址完成的HTTP GET数量。因此,像我这样的机器人很容易出现在我的统计数据中:P使用awk,我的表现优于所有同事,PHP,Ruby和bash脚本。

问题是您没有为每个文件(或页面)生成统计信息。你在总结所有结果,对吗?因此,我将使用SQLite来跟踪一个单词在所有扫描文本中出现的次数。使用shell脚本在SQLite中添加数据很容易(也很快)。

此外,您应该使用wget --spider或其他蜘蛛HTTP客户端,因为他们不仅会从索引页面下载内容,还会从第一页中包含链接(HREF)的所有页面下载内容。因此,您可以递归扫描网站。