我正在使用浏览器Mob代理(使用browsermob-proxy Python包)捕获Selenium发出的HTTP请求。在我的HAR文件中,我看到了这个(它应该是一个Javascript文件):
"content": {
"comment": "",
"size": 10908,
"mimeType": "application/x-javascript; charset=utf-8",
"encoding": "base64",
"text": ""
}
但是,使用
解码text
的{{1}}时
content
我总是收到以下错误:
base64.b64decode(my_coded_text).decode("UTF-8")
解码此类字符串的正确方法是什么?
已编辑添加
我假设问题来自rfc1341的这一行:“base64数据中的CRLF序列应转换为引用可打印的换行符,但仅在转换文本数据时”因为解码适用于图像。
但是,我还没有理解base64数据中的CRLF序列是什么以及如何转换它。
答案 0 :(得分:0)
我不确定“text”属性中应该包含哪种数据,但肯定不是文本。您需要分析提出此请求的应用程序来解决这个问题。
解码后的文本以以下数据开头,这些数据不包含任何可读文本,并且与任何已知文件格式不匹配:
00000000: e2a1 7614 9214 be79 5194 3352 a680 7a29 ..v....yQ.3R..z)
00000010: e064 8850 0375 fe03 f106 0ab6 1351 55cf .d.P.u.......QU.
00000020: ad32 a1ef d6fb a2a4 96e4 30ab 203e eb8c .2........0. >..
00000030: e3f1 46dd 155c 2e56 21c4 7987 df94 833f ..F..\.V!.y....?
对数据的分析表明,它实际上是不可压缩的。这意味着它可以加密,或使用未知算法进行压缩。
答案 1 :(得分:0)
我无法找到解码base64的方法,但我可以找到一种解决方法:使用selenium-requests
发送相同的请求并访问响应,这次不是base64编码的。
代码现在看起来像这样:
for http_req in proxy.har["log"]["entries"]:
req_url = http_req["request"]["url"]
if url in req_url:
# Captures the POST data
payload = {}
for post_param in http_req["request"]["postData"]["params"]:
param_name = post_param["name"]
param_value = post_param["value"]
payload[param_name] = param_value
# Resends the post request
r = driver.request('POST', url, data=payload)