Jaunt Java getText()返回正确的文本,但有很多“?”

时间:2017-12-21 19:37:43

标签: java jaunt-api

标题解释了所有,我也试过删除它们

(因为文字在那里,但是“aldo”而不是“al?do”,它似乎也有随机模式)

(String).replace("?", ""),但没有成功。

我也使用了这个,结合了UTF_8,UTF_16和ISO-8859,没有成功。

byte[] ptext = tempName.getBytes(UTF_8); 
String tempName1 = new String(ptext, UTF_16); 

我得到的一个例子:

Studded Regular Sweatshirt          // Instead of this
S?tudde?d R?eg?ular? Sw?eats?h?irt  // I get this

可能是网站注意到无头浏览器并试图“欺骗”其内容吗?我怎么能克服这个?

1 个答案:

答案 0 :(得分:0)

您抓取意图的网站很可能会将git commit -a -m "Commit title here" 3f字符混合到您的结果中。 因此,您必须将自己视为普通浏览器,以便通过替换来删除或过滤掉它。

简单文字

64
过滤后

Sca???rfa???ce??? E???mbr???oi�d???ered L�e???athe