我试图从Roblox的货币交易所收集统计数据进行分析。因此,我需要最新的数据而不是缓存的结果。但是,似乎无论我做什么,结果仍然是缓存的。似乎最直观的选项setUseCaches()
没有效果,手动将标题设置为Cache-Control: no-cache
似乎也不起作用。我使用Fiddler2检查了Cache标头,看到它的值为Cache-Control: max-age=0
,但它似乎也没有改变程序的行为。以下是相关的代码:
URL:
private final static String URL = "http://www.roblox.com/my/money.aspx#/#TradeCurrency_tab";
GET请求:
URLConnection socket = new URL( URL ).openConnection( );
socket.setUseCaches( false );
socket.setDefaultUseCaches( false );
HttpURLConnection conn = ( HttpURLConnection )socket;
conn.setUseCaches( false );
conn.setDefaultUseCaches( false );
conn.setRequestProperty( "Pragma", "no-cache" );
conn.setRequestProperty( "Expires", "0" );
conn.setRequestProperty( "Cookie", ".ROBLOSECURITY=" + ROBLOSECURITY );
conn.setRequestProperty( "Accept", "text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,*/*;q=0.8" );
conn.setRequestProperty( "Accept-Language", "en-US,en;q=0.8" );
conn.setRequestProperty( "User-Agent", "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/47.0.2526.106 Safari/537.36" );
conn.setDoInput( true );
conn.setRequestMethod( "GET" );
conn.connect();
Scanner data = new Scanner( conn.getInputStream() );
data.useDelimiter( "\\A" );
String result = data.next();
data.close( );
conn.disconnect();
每次重新启动程序时都会返回一个唯一的结果,但在程序运行期间不会返回一个唯一的结果。或者可能不重要。
更新
Wireshark分析(自上次以来我稍微调整了一下代码):
GET /my/money.aspx HTTP/1.1
Pragma: no-cache
Expires: 0
Cookie: .ROBLOSECURITY=_|WARNING:-DO-NOT-SHARE-THIS.--Sharing-this-will-allow-someone-to-log-in-as-you-and-to-steal-your-ROBUX-and-items.|*sensitive*
Accept: text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,*/*;q=0.8
Accept-Language: en-US,en;q=0.8
User-Agent: Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/47.0.2526.106 Safari/537.36
Cache-Control: no-cache
Host: www.roblox.com
Connection: keep-alive
HTTP/1.1 200 OK
Cache-Control: private, s-maxage=0
Content-Type: text/html; charset=utf-8
Set-Cookie: rbx-ip=; domain=roblox.com; path=/; HttpOnly
Set-Cookie: RBXSource=rbx_acquisition_time=1/4/2016 12:45:21 AM&rbx_acquisition_referrer=&rbx_medium=Direct&rbx_source=&rbx_campaign=&rbx_adgroup=&rbx_keyword=&rbx_matchtype=&rbx_send_info=0; domain=roblox.com; expires=Wed, 03-Feb-2016 06:45:21 GMT; path=/
Access-Control-Allow-Credentials: true
Set-Cookie: rbx-ip=; domain=roblox.com; path=/; HttpOnly
Set-Cookie: RBXSource=rbx_acquisition_time=1/4/2016 12:45:21 AM&rbx_acquisition_referrer=&rbx_medium=Direct&rbx_source=&rbx_campaign=&rbx_adgroup=&rbx_keyword=&rbx_matchtype=&rbx_send_info=1; domain=roblox.com; expires=Wed, 03-Feb-2016 06:45:21 GMT; path=/
Set-Cookie: RBXEventTrackerV2=CreateDate=1/4/2016 12:45:21 AM&rbxid=59210735&browserid=3940274345; domain=roblox.com; expires=Fri, 22-May-2043 05:45:21 GMT; path=/
Set-Cookie: GuestData=UserID=-856460986; domain=.roblox.com; expires=Fri, 22-May-2043 05:45:21 GMT; path=/
P3P: CP="CAO DSP COR CURa ADMa DEVa OUR IND PHY ONL UNI COM NAV INT DEM PRE"
Date: Mon, 04 Jan 2016 06:45:20 GMT
Content-Length: 153751
答案 0 :(得分:5)
如果缓存发生在服务器端,请将缓存区附加到URL。
HttpURLConnection conn = ( HttpURLConnection )new URL( URL + "?_=" + System.currentTimeMillis() ).openConnection( );
答案 1 :(得分:2)
我注意到您没有告诉本地HttpURLConnection
绕过自己的缓存。
HttpURLConnection
从setUseCaches(boolean)
继承了URLConnection
方法。来自Javadoc for setUseCaches(boolean)
将此URLConnection的useCaches字段的值设置为指定值。
某些协议会对文档进行缓存。偶尔,能够通过"隧道穿越"并忽略缓存(例如,浏览器中的" reload"按钮)。如果连接上的UseCaches标志为true,则允许连接使用它可以使用的任何缓存。如果为false,则忽略缓存。默认值来自DefaultUseCaches,默认为true。
答案 2 :(得分:1)
看到您尝试了大多数缓存设置。它可能不是你的客户,而是他们的服务导致这种情况发生。我可以从你的wireshark信息中看到你有" Connection Keep-Alive"。也许你可以尝试将其设置为" Connection Close"因为你说每次重启程序都会得到一个非缓存的结果。
这在生产环境中可能并不理想,但也许它可以让您对发生的事情有所了解。
答案 3 :(得分:1)
我错过了上下文(如何多次调用给定的代码段)来准确地确定问题,但这可能是由于重用socket
对象而不是为每个请求实例化一个新对象。
连接打开后,useCache
设置无关紧要。看看sun.net.www.protocol.http.HttpURLConnection#connect
:
protected void plainConnect() throws IOException {
if (connected) {
return;
}
// try to see if request can be served from local cache
if (cacheHandler != null && getUseCaches()) {
// ..
}
如果连接已打开,它将立即返回并重用现有的InputStream
实例。
答案 4 :(得分:1)
您是否尝试过以下标题:
Cache-Control: no-cache
Pragma: no-cache
If-Modified-Since: Sat, 1 Jan 2000 00:00:00 GMT
答案 5 :(得分:0)
我建议您在打开URLConnection
套接字之前对您的网址执行以下操作:
URLConnection socket = new URL( URL.replaceFirst("#", "?cacheFrom=" + System.currentTimeMillis()+"#") ).openConnection( );