使用perl进行lexing /解析网页与é

时间:2014-09-26 15:22:40

标签: perl parsing unicode

我正在使用Net::HTTPhttp://prwolfe.bol.ucla.edu/cfootball/scores.htm加载网页,然后我有一个数据文件,其中包含我想用来从网页抓取分数的足球队列表。其中一支队伍是“SanJoséSt”,但我的perl从未接受过那些比赛。

  1. 该页面以windows-1252编码方式返回,根据其unicode,é为hexE9或dec233。

  2. Raw tcpdump确认hexE9

  3. 我已经使用CTRL-V255技巧将字符输入到我的数据文件中,vi正确显示为“SanJoséSt”

  4. 当我抓住数据文件时,它正确显示为“SanJoséSt”

  5. 和#5是这里有趣的线索,但我无法弄清楚它意味着什么......

    1. 当我使用perl将网页转储到控制台时,它会转储“”SanJos▒St“

    2. 我尝试在我的数据文件中使用那个▒字符而不是é,但它仍然无效。

    3. 我很确定#5是这里的线索,但不知道该去哪里

0 个答案:

没有答案