我正在努力用Java创建一个Web爬虫。爬虫访问网站,使用JDBC访问/存储数据库中的数据,还可以在本地或云存储上存储文件。
作为抓取的一部分,我想要详细说明抓取工具的使用细节 -
参数如 -
Number of sites visited (HTTP+HTTPS)
Number of bytes of data received over one run of the crawler
Number of bytes of data sent over one run of the crawler
Number of rows updated/inserted/deleted/selected via JDBC over that run of the crawler
Number of bytes of data stored+accessed in local machine (on which the crawler is running)
Number of bytes of data stored+accessed in cloud storage (like Amazon S3)
有没有快速的方法来完成上述部分或全部内容?也许有些库必须插入我的java应用程序?当爬虫执行某些操作(比如访问网站,下载数据等)时,我是否必须在每个阶段单独记下所有上述参数?我不希望程序陷入困境只是因为我想测量和跟踪上述参数。
我希望将抓取工具用作桌面应用和网络应用,因此欢迎使用这两种解决方案......
答案 0 :(得分:1)
当抓取工具执行某些操作(例如访问网站,下载数据等)时,我是否必须在每个阶段单独记下所有上述参数?
是
您要在全局统计类中为要为应用程序创建的全局统计类中添加数字。你的程序不应该因执行添加而陷入困境。