我想在Python 3.3中切换CJK字符。也就是说,我需要从价格(中国)和価(日语)得到价格(韩国)。有这样的外部模块吗?
答案 0 :(得分:2)
Unihan page about 價提供了一个简化的变体(相对于traditionnal),但似乎没有提供日语/韩语。所以......
我建议您查看CJKlib,其中有一个名为Variants的功能部分说明:
Z变体形式,只有字体不同
您的样本字符价(U + 50F9)没有z变体。但是価 (U+4FA1) has a kZVariant到U + 50F9价。这看起来很奇怪。
答案 1 :(得分:1)
Here是一个相对完整的转换表。您可以将其转储到json以供以后使用:
import requests
from bs4 import BeautifulSoup as BS
import json
def gen(soup):
for tr in soup.select('tr'):
tds = tr.select('td.tdR4')
if len(tds) == 6:
yield tds[2].string, tds[3].string
uri = 'http://www.kishugiken.co.jp/cn/code10d.html'
soup = BS(requests.get(uri).content, 'html5lib')
d = {}
for hanzi, kanji in gen(soup):
a = d.get(hanzi, [])
a.append(kanji)
d[hanzi] = a
print(json.dumps(d, indent=4))
代码及其输出位于this gist。