java--库/方法,用于在运行Java应用程序时跟踪使用的带宽和其他参数

时间:2012-06-28 15:07:07

标签: java web-crawler

我正在努力用Java创建一个Web爬虫。爬虫访问网站,使用JDBC访问/存储数据库中的数据,还可以在本地或云存储上存储文件。

作为抓取的一部分,我想要详细说明抓取工具的使用细节 -

参数如 -

Number of sites visited (HTTP+HTTPS)
Number of bytes of data received over one run of the crawler
Number of bytes of data sent over one run of the crawler
Number of rows updated/inserted/deleted/selected via JDBC over that run of the crawler
Number of bytes of data stored+accessed in local machine (on which the crawler is running)
Number of bytes of data stored+accessed in cloud storage (like Amazon S3)

有没有快速的方法来完成上述部分或全部内容?也许有些库必须插入我的java应用程序?当爬虫执行某些操作(比如访问网站,下载数据等)时,我是否必须在每个阶段单独记下所有上述参数?我不希望程序陷入困境只是因为我想测量和跟踪上述参数。

我希望将抓取工具用作桌面应用和网络应用,因此欢迎使用这两种解决方案......

1 个答案:

答案 0 :(得分:1)

  

当抓取工具执行某些操作(例如访问网站,下载数据等)时,我是否必须在每个阶段单独记下所有上述参数?

您要在全局统计类中为要为应用程序创建的全局统计类中添加数字。你的程序不应该因执行添加而陷入困境。