我正在尝试通过翻译nltk 3.0中为python 3发现的整个西班牙语语料库来创建我自己的数字西班牙语到英语数据库。我正在使用Google工具包进行翻译,并证明这是一个非常缓慢的过程。我想知道是否存在西班牙语到英语字典(最好是模块形式),我可以在python 3中导入和使用。下面是我必须手动翻译的代码。到目前为止,每5000次翻译需要大约12.5分钟。
import goslate
import nltk
import pickle
x = pickle.load(open( "espcorpus.pickle", "rb" ))
gs = goslate.Goslate()
y = len(x)
y = y-1
print(y)
z = 0
b = []
n = 0
error = 0
import pickle
while z < 192683:
n = n + 1
while -1 < z < (4481*n):
try:
c = gs.translate(x[z], 'en', 'es')
word=nltk.word_tokenize(c)
c = nltk.pos_tag(word)
b.append(c[0])
print(z)
z += 1
except:
continue
error += 1
pickle.dump(b, (open('filename%s.pickle' % n, 'wb')))
print(n)
b = []
print('errors: %i' % error)
idealist = []
n = 1
while n<27:
print(n)
target = 'filename%s.pickle' % n
with open(target, "rb") as file:
unpickler = pickle.Unpickler(file)
poop = unpickler.load()
x = len(poop)
z = 0
while z<x:
idealist.append(poop[z])
z= z +1
n = n + 1
print(len(idealist))
pickle.dump(idealist, (open('master.pickle', 'wb')))
我希望如何设置最终数据库: [西班牙语单词,英语单词,英语词性标签]
如果我遗漏了任何东西,请告诉我。
提前感谢您的专业知识。
答案 0 :(得分:4)
你不需要任何专门为python格式化的字典,只是你可以用python消化的格式,这意味着几乎任何众所周知的文本格式。只是尝试以易于理解的格式查找开源字典并使用python进行解析。