关于在Google App Engine for Java中使用java.net.url的一些问题

时间:2012-01-15 14:27:42

标签: java google-app-engine

我想使用java.net.url抓取一些网站并检索一些数据。

我对以下问题感到困惑 -

(1)假设我将抓取工具配置为访问视频共享网页,例如You Tube。现在,抓取工具设置为访问特定的You Tube视频页面 - 这是否意味着当抓取工具实际访问该页面时,它将默认下载该页面上的所有元素,包括FLV视频?或者我可以控制要检索的文件。目标是最小化Google App Engine上的带宽利用率。具体来说,最初我只想要检索HTML网页本身而不检索该网页上的图像/视频/其他附件......这可能是在Google App Engine上,还是作为常规Java Web应用程序的一部分?

(2)了解用于访问单个特定站点的确切带宽的快速简便方法是什么?这样我就可以跟踪带宽利用率了吗?

同时记住上述两个问题,您是否建议使用java.net.url或低级API?或者你认为我不应该坚持使用App Engine(并用于例如AWS)?

1 个答案:

答案 0 :(得分:1)

(1)您的抓取工具只会加载Web服务器响应特定网址的内容,该网址通常是纯HTML。如果是YouTube,只需在页面上右键单击浏览器,然后选择查看源。如果您自动加载页面,那就是您要下载的内容。没有视频,只有文字。

(2)当您阅读网页内容时,只需计算您收到的字节数。那是你的带宽。