我有一个维基百科xml转储文件,该文件已被删除所有不属于实际文本的标签和内容。我试图通过整个转储自动解析,以提取python中格式良好的句子。文本中的样本是:
{{Nihongo |'''' Barefoot Gen''''&#39 ; |はだしのゲン| Hadashi no Gen}}是[[日本]] [[manga]]系列[[Keiji Nakazawa]]。基于中泽自己作为广岛幸存者的经历,该系列开始于1945年[[广岛]],[[日本]]及其周围,六岁男孩[[Gen Nakaoka]]生活与他的家人。
这就是我现在所拥有的:
nonalphanum = "~`!@#$%^&*()_+=-\][|}{;:\"/.,?><"
class sentence:
#Instantiation function
def __init__( self, wiki_str ):
self.words = wiki_str.translate( None, nonalphanum ).split()
self.size = len( self.words )
print( self.words, self.size )
我的输出是:
([&#34; Nihongo&#39;&#39;&#39;&#39; Barefoot&#34;,&#34; Gen&#39;&#39;&#39; &#39;&#39; \ xe3 \ x81 \ xaf \ xe3 \ x81 \ xa0 \ xe3 \ x81 \ x97 \ xe3 \ x81 \ xae \ xe3 \ x82 \ xb2 \ xe3 \ x83 \ xb3Hadashi&#34;,&# 39;没有&#39;,&#39; Gen&#39;,&#39;是&#39;&#39; a&#39;,&#39;日语&#39;漫画&#39; ,&#39;系列&#39;,&#39; by&#39;,&#39; Keiji&#39;,&#39; Nakazawa&#39;,&#39; Loosely&#39;,&#39; ;基于&#39;,&#39; on&#39;,&#34; Nakazawa&#34;,&#39;拥有&#39;,&#39;体验&#39;,&#39; as&#39;,&#39; a&#39;,&#39;广岛&#39;,&#39;幸存者&#39;&#39;&#39;&#39;系列&#39;, &#39;开始&#39;,&#39;&#39;&#39; 1945&#39;,&#39;&#39;&#39;&#39;&#39;&#39;& #39;,&#39; Hiroshima&#39;,&#39; Japan&#39;,&#39; where&#39;,&#39; the&#39;,&#39; sixyearold&#39;,& #39;男孩&#39;,&#39; Gen&#39;,&#39; Nakaoka&#39;,&#39;生活&#39;,&#39;&#39;,&#39;他的&# 39;,&#39; family&#39;],42)
我想要的是
Nihongo Barefoot Gen Hadashi no Gen是Keiji Nakazawa的日本漫画系列。基于中泽自己作为广岛幸存者的经历,该系列开始于1945年在日本广岛及其附近,六岁的男孩Gen Nakaoka与他的家人住在一起。
感谢您的帮助!