如何从xml文件的文本字段中提取信息

时间:2013-11-06 04:42:38

标签: python xml string

我有一个维基百科xml转储文件,该文件已被删除所有不属于实际文本的标签和内容。我试图通过整个转储自动解析,以提取python中格式良好的句子。文本中的样本是:

{{Nihongo |'''' Barefoot Gen''''&#39 ; |はだしのゲン| Hadashi no Gen}}是[[日本]] [[manga]]系列[[Keiji Nakazawa]]。基于中泽自己作为广岛幸存者的经历,该系列开始于1945年[[广岛]],[[日本]]及其周围,六岁男孩[[Gen Nakaoka]]生活与他的家人。

这就是我现在所拥有的:

nonalphanum = "~`!@#$%^&*()_+=-\][|}{;:\"/.,?><"

class sentence:

#Instantiation function
def __init__( self, wiki_str ):
    self.words = wiki_str.translate( None, nonalphanum ).split()
    self.size = len( self.words )
    print( self.words, self.size )

我的输出是:

([&#34; Nihongo&#39;&#39;&#39;&#39; Barefoot&#34;,&#34; Gen&#39;&#39;&#39; &#39;&#39; \ xe3 \ x81 \ xaf \ xe3 \ x81 \ xa0 \ xe3 \ x81 \ x97 \ xe3 \ x81 \ xae \ xe3 \ x82 \ xb2 \ xe3 \ x83 \ xb3Hadashi&#34;,&# 39;没有&#39;,&#39; Gen&#39;,&#39;是&#39;&#39; a&#39;,&#39;日语&#39;漫画&#39; ,&#39;系列&#39;,&#39; by&#39;,&#39; Keiji&#39;,&#39; Nakazawa&#39;,&#39; Loosely&#39;,&#39; ;基于&#39;,&#39; on&#39;,&#34; Nakazawa&#34;,&#39;拥有&#39;,&#39;体验&#39;,&#39; as&#39;,&#39; a&#39;,&#39;广岛&#39;,&#39;幸存者&#39;&#39;&#39;&#39;系列&#39;, &#39;开始&#39;,&#39;&#39;&#39; 1945&#39;,&#39;&#39;&#39;&#39;&#39;&#39;& #39;,&#39; Hiroshima&#39;,&#39; Japan&#39;,&#39; where&#39;,&#39; the&#39;,&#39; sixyearold&#39;,& #39;男孩&#39;,&#39; Gen&#39;,&#39; Nakaoka&#39;,&#39;生活&#39;,&#39;&#39;,&#39;他的&# 39;,&#39; family&#39;],42)

我想要的是

Nihongo Barefoot Gen Hadashi no Gen是Keiji Nakazawa的日本漫画系列。基于中泽自己作为广岛幸存者的经历,该系列开始于1945年在日本广岛及其附近,六岁的男孩Gen Nakaoka与他的家人住在一起。

感谢您的帮助!

0 个答案:

没有答案