Question

我正在努力用Java创建一个Web爬虫。爬虫访问网站，使用JDBC访问/存储数据库中的数据，还可以在本地或云存储上存储文件。

作为抓取的一部分，我想要详细说明抓取工具的使用细节 -

参数如 -

Number of sites visited (HTTP+HTTPS)
Number of bytes of data received over one run of the crawler
Number of bytes of data sent over one run of the crawler
Number of rows updated/inserted/deleted/selected via JDBC over that run of the crawler
Number of bytes of data stored+accessed in local machine (on which the crawler is running)
Number of bytes of data stored+accessed in cloud storage (like Amazon S3)

有没有快速的方法来完成上述部分或全部内容？也许有些库必须插入我的java应用程序？当爬虫执行某些操作（比如访问网站，下载数据等）时，我是否必须在每个阶段单独记下所有上述参数？我不希望程序陷入困境只是因为我想测量和跟踪上述参数。

我希望将抓取工具用作桌面应用和网络应用，因此欢迎使用这两种解决方案......

Answer 1

当抓取工具执行某些操作（例如访问网站，下载数据等）时，我是否必须在每个阶段单独记下所有上述参数？

是

您要在全局统计类中为要为应用程序创建的全局统计类中添加数字。你的程序不应该因执行添加而陷入困境。

java--库/方法，用于在运行Java应用程序时跟踪使用的带宽和其他参数

1 个答案: