我正在尝试使用字典的非常大的gzip文件。在线here上发布了每个条目的XML外观示例。
我的最终目标是将该文件中的数据转换为可以导入到sqlite数据库中的格式,如下所示:
Word(keb) Pronunciation(reb) Usage(re_pri) Definition(sense/pos + sense/gloss)
収集;蒐集;拾集収輯 しゅうしゅう ichi1;news1;nf05 &n;&vs;gathering up;collection;accumulation
但是,我一直坚持以下几点:
entry
标签都具有相同数量的单词(keb
标签),而且我不知道如何使用XML来处理。None
,我不确定如何在XML中解决它。我认为没有很多if
/ except
块是处理它的正确方法。通常,当我站稳脚跟时,我可以很好地弄清楚其余部分,但是我对此感到困惑。
我的代码如下:
with gzip.open('JMdict_e.gz', 'rb') as f:
f = f.read()
f = f.decode('utf-8')
stuff = ET.fromstring(f)
lst = stuff.findall('entry') # the main tag separating each entry to loop through
for item in lst:
word = item[1][0].text #k_ele -> keb
pronounciation = item[2][0].text #reb
definition = item[3][0]#.find('pos').text
谢谢您的帮助!