应用错误收集

我想使用java.net.url抓取一些网站并检索一些数据。

我对以下问题感到困惑 -

（1）假设我将抓取工具配置为访问视频共享网页，例如You Tube。现在，抓取工具设置为访问特定的You Tube视频页面 - 这是否意味着当抓取工具实际访问该页面时，它将默认下载该页面上的所有元素，包括FLV视频？或者我可以控制要检索的文件。目标是最小化Google App Engine上的带宽利用率。具体来说，最初我只想要检索HTML网页本身而不检索该网页上的图像/视频/其他附件......这可能是在Google App Engine上，还是作为常规Java Web应用程序的一部分？

（2）了解用于访问单个特定站点的确切带宽的快速简便方法是什么？这样我就可以跟踪带宽利用率了吗？

同时记住上述两个问题，您是否建议使用java.net.url或低级API？或者你认为我不应该坚持使用App Engine（并用于例如AWS）？

关于在Google App Engine for Java中使用java.net.url的一些问题

1 个答案: