我正在使用Net::HTTP从http://prwolfe.bol.ucla.edu/cfootball/scores.htm加载网页,然后我有一个数据文件,其中包含我想用来从网页抓取分数的足球队列表。其中一支队伍是“SanJoséSt”,但我的perl从未接受过那些比赛。
该页面以windows-1252编码方式返回,根据其unicode,é为hexE9或dec233。
Raw tcpdump确认hexE9
我已经使用CTRL-V255技巧将字符输入到我的数据文件中,vi正确显示为“SanJoséSt”
当我抓住数据文件时,它正确显示为“SanJoséSt”
和#5是这里有趣的线索,但我无法弄清楚它意味着什么......
当我使用perl将网页转储到控制台时,它会转储“”SanJos▒St“
我尝试在我的数据文件中使用那个▒字符而不是é,但它仍然无效。
我很确定#5是这里的线索,但不知道该去哪里