我需要创建一个脚本来计算网页上的单词出现次数
我正在做的是计算随机IP(避免多次检查相同的ips),使用nmap查看端口80是否打开以知道它是否是Web服务器然后我使用w3m来创建http页面作为文件。 在容易计算单词出现之后
我遇到了一些问题和问题
非常感谢
答案 0 :(得分:-1)
我用awk做类似的事情。 awk非常适合文本解析。我所做的是分析Apache日志中每个IP地址完成的HTTP GET数量。因此,像我这样的机器人很容易出现在我的统计数据中:P使用awk,我的表现优于所有同事,PHP,Ruby和bash脚本。
问题是您没有为每个文件(或页面)生成统计信息。你在总结所有结果,对吗?因此,我将使用SQLite来跟踪一个单词在所有扫描文本中出现的次数。使用shell脚本在SQLite中添加数据很容易(也很快)。
此外,您应该使用wget --spider或其他蜘蛛HTTP客户端,因为他们不仅会从索引页面下载内容,还会从第一页中包含链接(HREF)的所有页面下载内容。因此,您可以递归扫描网站。