是否有例如一个爬虫,可以找到(并列出表单操作等)所有在我的网站中有表单的页面?
我想记录具有独特操作的所有页面,然后进一步审核。
答案 0 :(得分:1)
Norconex HTTP Collector是一款开源网络抓取工具,可以为您提供帮助。其“Importer”模块具有“TextBetweenTagger”功能,可在任何开始和结束文本之间提取文本,并将其存储在您选择的元数据字段中。然后,您可以过滤掉那些没有提取此类文本的内容(请参阅EmptyMetadataFilter选项)。
您无需编写代码即可完成此操作。至于存储结果,产品使用“提交者”。一些提交者随时可用(包括一个文件系统),但您可能希望自己编写“提交”已爬网数据的任何地方(例如在数据库中)。
检查其configuration page的想法。