我正在尝试使用cfhttp拉出一个用于解析信息的页面。我正在调用的页眉是:
内容编码:gzip
连接:Keep-Alive
内容长度:19066
服务器:IBM_HTTP_Server
Vary:Accept-Encoding,User-Agent
内容 - 语言:en-US
Cache-Control:no-cache =“set-cookie,
设置COOKIE2"
内容类型:
的text / html;字符集= ISO-8859-1
我将charset设置为ISO-8859-1但是我在FileContent中得到以下内容(下面只显示了一小部分示例,但我认为它可以指出)。
EðÑq·OA?·I \ZóL¯þ'Vú5ðbä£ÿæ¾_HÉÒñQãO\Çþãë85ÁÜ à±°UO}&安培;??bßý,U2SùQyk5gUÛ3Ѹfã×ARÃi_iûRã _òCA¿-ß。
"b /¯ßíWÝÆ´}w~,°iøÜCáÇþ@ÃZ5¤ïsÁ8½°ì* ZÜéjOÝK/Ë4§ÈG5×ä*¬6ÚwÇ0]ã:àÑþé¬G"ÅÁl/t° jlá»5¶&¯lìYìºØ'yDð½|#ý<ñìTé%¾ï¬ùƪx¶}«±o9»ë¼ÂÆÒï'w8Y?
÷ðxsllû 6íqüGÞsÜóÀx·ªk®XºàåZ{íÁ½åo÷活度¥ÝÃ8M
我尝试了其他字符集并且正在考虑使用gzip编码导致问题,但我不确定测试是否是问题。任何建议或帮助都会受到极大的重视。
以下是我的代码
<cfhttp
METHOD="get"
throwonerror="yes"
CHARSET="ISO-8859-1"
URL="http://www.cars.com/for-sale/searchresults.action?sf1Dir=DESC&prMn=1&crSrtFlds=stkTypId-feedSegId-pseudoPrice&rd=100000&zc=44203&PMmt=0-0-0&stkTypId=28881&sf2Dir=ASC&sf1Nm=price&sf2Nm=miles&feedSegId=28705&searchSource=UTILITY&pgId=2102&rpp=10">
<cfhttpparam type="Header" name="Accept-Encoding" value="deflate;q=0">
<cfhttpparam type= "Header" name= "TE" value= "deflate;q=0" >
</cfhttp>
<cfset listings = #cfhttp.FileContent#>
<cfoutput>
#listings#
</cfoutput>
我也试过了标题:
<cfhttpparam type="Header" name="Accept-Encoding" value="*">
<cfhttpparam type= "Header" name= "TE" value= "deflate;q=0" >
尝试删除'Accept-Encoding'标题,然后离开TE。
更新 我仍然没有想到它,但我找到了一些可能有助于我帮助我的东西。当我使用我的测试php服务器在同一页面上运行file_get_contents并且它工作正常时,如果我运行相同的cfhttp代码来调用调用页面的php页面我需要它工作得很好。感谢到目前为止的建议。
答案 0 :(得分:10)
cars.com的问题似乎是他们两次输出gzipping(基于this thread)
所以,我们需要再次解压缩内容......
首先,我们需要将内容作为二进制文件,因此CFHTTP调用需要包含
getasbinary="yes"
然后,我们需要解压缩它。
我们可以使用java.util.zip来完成它。 gunzip是this cflib.org function的修改版本:
<cfhttp
getasbinary="yes"
METHOD="get"
throwonerror="yes"
CHARSET="ISO-8859-1"
URL="http://www.cars.com/for-sale/searchresults.action?sf1Dir=DESC&prMn=1&crSrtFlds=stkTypId-feedSegId-pseudoPrice&rd=100000&zc=44203&PMmt=0-0-0&stkTypId=28881&sf2Dir=ASC&sf1Nm=price&sf2Nm=miles&feedSegId=28705&searchSource=UTILITY&pgId=2102&rpp=10" >
<cfhttpparam type="Header" name="Accept" value="application/xml,application/xhtml+xml,text/html;q=0.9,text/plain;q=0.8,image/png,*/*;q=0.5">
<cfhttpparam type="Header" name="User-Agent" value="Mozilla/5.0 (Macintosh; U; Intel Mac OS X 10_5_8; en-US) AppleWebKit/534.7 (KHTML, like Gecko) Chrome/7.0.517.41">
<cfhttpparam type="Header" name="Accept-Encoding" value="deflate">
<cfhttpparam type="Header" name="TE" value="deflate, chunked, identity, trailers">
</cfhttp>
<cfset unzippedHTML = gunzip(cfhttp.FileContent)>
<cfoutput>
#unzippedHTML#
</cfoutput>
<cfscript>
function gunzip(inBytes) {
var gzInStream = createObject('java','java.util.zip.GZIPInputStream');
var outStream = createObject('java','java.io.ByteArrayOutputStream');
var inStream = createObject('java','java.io.ByteArrayInputStream');
var buffer = repeatString(" ",1024).getBytes();
var length = 0;
var rv = "";
try {
inStream.init(inBytes);
gzInStream.init(inStream);
outStream.init();
do {
length = gzInStream.read(buffer,0,1024);
if (length neq -1) outStream.write(buffer,0,length);
} while (length neq -1);
rv = outStream.toString();
outStream.close();
gzInStream.close();
inStream.close();
}
catch (any e) {
rv = "";
try {
outStream.close();
} catch (any e) { }
try {
gzInStream.close();
} catch (any e) {
try {
inStream.close();
} catch (any e) {}
}
}
return rv;
}
</cfscript>
请务必仔细检查函数的var范围。我可能错过了一些东西。
答案 1 :(得分:3)
根据标题,您看到的是文件的gzip压缩内容。在对您有用之前,它需要解压缩。我假设您可以使用cfzip执行此操作,但没有任何经验。
This post似乎表明您可以在请求中添加标题,以便在返回之前将其解压缩/缩小:
<cfhttp ...>
<cfhttpparam type="Header" name="Accept-Encoding" value="deflate;q=0">
<cfhttpparam type="Header" name="TE" value="deflate;q=0">
</cfhttp>
答案 2 :(得分:0)
我要做的第一件事是通过对其他页面尝试相同的代码来确保它不是源内容/服务器的问题。如果它们工作正常,则可能是您尝试使用的服务器/内容。如果他们遇到同样的问题,那么问题出在您的代码中。如果您发布了代码,也会有所帮助。