我正在Websters Unabridged Dictionary上进行一些文本处理,遇到了一些我不知道的不符合任何标准的转义序列(即,它们不是HTML,CSS,Unicode等转义序列)的。
一些示例文本:
<h1>Galore</h1>
<Xpage=610>
<hw>Ga*lore"</hw> <tt>(?)</tt>, <tt>n. & a.</tt> <ety>[Scot. <ets>gelore</ets>, <ets>gilore</ets>, <ets>galore</ets>, fr. <ets>Gael</ets>. <ets>gu le\'95r</ets>, enough; <ets>gu-</ets> to, also an adverbial prefix + <ets>le\'95r</ets>, <ets>le\'95ir</ets>, enough; or fr. Ir. <ets>goleor</ets>, the same word.]</ety> <def>Plenty; abundance; in abundance.</def>
它们都是\'xy
形式,其中x
,y
是[0-9]
中的任何数字或[a-f]
中的字母。显然,他们在形式上同意RTF escape sequences。但是,它们应该代表的字符远不正确。
对于我想要的数据中出现的那些,我已经知道:
{
"\'80": "Ç",
"\'81": "ü",
"\'82": "é",
"\'83": "â",
"\'84": "ä",
"\'85": "à",
"\'86": "å",
"\'87": "ç",
"\'88": "ê",
"\'89": "ë",
"\'90": "É",
"\'91": "æ",
"\'92": "Æ",
"\'93": "ô",
"\'94": "ö",
"\'95": "ò",
"\'96": "û",
"\'97": "ù"
}
起初,我认为这可能是一个简单的环绕错误(每个十六进制值xy
的偏移量相同),但是通过查看ç
和{{1 }}并将其偏移量与正确值进行比较,或者注意如果ö
为Ç
,则\'80
应该为ü
。
为了完整起见,我在正则表达式\'b5
中找到的所有值(总计74)是:
r"\\\'[\d\w]{2,2}"
谁能告诉我这些转义序列遵循什么标准?链接到将表或库转换为Unicode的表或库。
编辑
进一步处理后发现:
\'3c
\'3e
\'80
\'81
\'82
\'83
\'84
\'85
\'86
\'87
\'88
\'89
\'8a
\'8b
\'8c
\'8d
\'90
\'91
\'92
\'93
\'94
\'95
\'96
\'97
\'9a
\'9c
\'a0
\'a1
\'a2
\'a3
\'a4
\'a6
\'a7
\'ab
\'ac
\'b5
\'b6
\'b7
\'b8
\'bd
\'be
\'bf
\'c3
\'c5
\'c6
\'c7
\'c8
\'c9
\'cb
\'cc
\'ce
\'cf
\'d0
\'d1
\'d2
\'d3
\'d4
\'d6
\'dc
\'dd
\'de
\'df
\'dh
\'eb
\'ed
\'ee
\'ef
\'f0
\'f4
\'f5
\'f6
\'f7
\'f8
\'fb
不幸的是,似乎{
"\'d1": "Œ",
"\'d2": "œ",
"\'ee": "ã"
}
中的字符与IBM codepage 437一致,但是文档的撰写者决定对非原始编码的字符使用自定义映射,可惜。