Question

我有一个维基百科xml转储文件，该文件已被删除所有不属于实际文本的标签和内容。我试图通过整个转储自动解析，以提取python中格式良好的句子。文本中的样本是：

{{Nihongo |＆＃39;＆＃39;＆＃39;＆＃39; Barefoot Gen＆＃39;＆＃39;＆＃39;＆＃39;＆＃39 ; |はだしのゲン| Hadashi no Gen}}是[[日本]] [[manga]]系列[[Keiji Nakazawa]]。基于中泽自己作为广岛幸存者的经历，该系列开始于1945年[[广岛]]，[[日本]]及其周围，六岁男孩[[Gen Nakaoka]]生活与他的家人。

这就是我现在所拥有的：

nonalphanum = "~`!@#$%^&*()_+=-\][|}{;:\"/.,?><"

class sentence:

#Instantiation function
def __init__( self, wiki_str ):
    self.words = wiki_str.translate( None, nonalphanum ).split()
    self.size = len( self.words )
    print( self.words, self.size )

我的输出是：

（[＆＃34; Nihongo＆＃39;＆＃39;＆＃39;＆＃39; Barefoot＆＃34;，＆＃34; Gen＆＃39;＆＃39;＆＃39; ＆＃39;＆＃39; \ xe3 \ x81 \ xaf \ xe3 \ x81 \ xa0 \ xe3 \ x81 \ x97 \ xe3 \ x81 \ xae \ xe3 \ x82 \ xb2 \ xe3 \ x83 \ xb3Hadashi＆＃34;，＆＃ 39;没有＆＃39;，＆＃39; Gen＆＃39;，＆＃39;是＆＃39;＆＃39; a＆＃39;，＆＃39;日语＆＃39;漫画＆＃39; ，＆＃39;系列＆＃39;，＆＃39; by＆＃39;，＆＃39; Keiji＆＃39;，＆＃39; Nakazawa＆＃39;，＆＃39; Loosely＆＃39;，＆＃39; ;基于＆＃39;，＆＃39; on＆＃39;，＆＃34; Nakazawa＆＃34;，＆＃39;拥有＆＃39;，＆＃39;体验＆＃39;，＆＃39; as＆＃39;，＆＃39; a＆＃39;，＆＃39;广岛＆＃39;，＆＃39;幸存者＆＃39;＆＃39;＆＃39;＆＃39;系列＆＃39;，＆＃39;开始＆＃39;，＆＃39;＆＃39;＆＃39; 1945＆＃39;，＆＃39;＆＃39;＆＃39;＆＃39;＆＃39;＆＃39;＆＃39;，＆＃39; Hiroshima＆＃39;，＆＃39; Japan＆＃39;，＆＃39; where＆＃39;，＆＃39; the＆＃39;，＆＃39; sixyearold＆＃39;，＆＃39;男孩＆＃39;，＆＃39; Gen＆＃39;，＆＃39; Nakaoka＆＃39;，＆＃39;生活＆＃39;，＆＃39;＆＃39;，＆＃39;他的＆＃ 39;，＆＃39; family＆＃39;]，42）

我想要的是

Nihongo Barefoot Gen Hadashi no Gen是Keiji Nakazawa的日本漫画系列。基于中泽自己作为广岛幸存者的经历，该系列开始于1945年在日本广岛及其附近，六岁的男孩Gen Nakaoka与他的家人住在一起。

感谢您的帮助！

如何从xml文件的文本字段中提取信息

0 个答案: