如何在提取网址时删除Google App Engine默认标头?

时间:2012-11-05 05:48:50

标签: python google-app-engine http-headers craigslist

我正在尝试在GAE上构建一个小应用程序,以帮助我管理我感兴趣的craigslist列表。我想从我的应用程序中获取这些列表中的一些数据,但每次我这样做都会得到404来自craigslist。

经过一番调查后发现我的代码不是罪魁祸首:craigslist查看HTTP标头,并在用户代理标题中找到“AppEngine-Google”时系统地返回404!

你可以看到curl:

curl http://sfbay.craigslist.org/

有效(返回页面)。

curl http://sfbay.craigslist.org/ --header "User-Agent: AppEngine-Google"

没有提供任何东西。

我知道如何删除GAE默认设置的标头吗?或者另一个想法来解决这个问题?

1 个答案:

答案 0 :(得分:4)

在发出传出请求时,无法阻止App Engine识别自身。这是为了防止滥用。

如果Craigslist选择将App Engine列入黑名单,您需要与他们讨论,而不是试图逃避它。