如何从维基百科页面VB.net的xml获取段落文本

时间:2013-08-21 12:59:50

标签: xml regex vb.net

问题的一小部分背景:我正在vb.net中开发一个NLP(自然语言处理)应用程序,我决定使用维基百科作为我的训练文本集。

我已将Wikipedia下载为XML文件,但我无法提取纯文本。我一直在尝试使用正则表达式从xml文件中获取段落的文本,但它似乎并没有很好地工作。我遇到的问题是当你查看一个wiki页面时(例如:Anarchism on Wiki),内部链接(到其他wiki文章)只是作为文本显示,但在xml文件中它们显示如下:[[自由联想(共产主义和无政府主义)|自由联想]]。我不想要方括号,因为这只是链接的格式,我不想要第二页ID(自由关联),因为这不是文本对读者的显示方式。还有我不想删除的样式问题(我很确定我可以用正则表达式来解决这个问题,我目前正在使用Dim expression As New Regex("/\<[a-z0-9\ ]+\>/")

要从xml文件中获取实际文本,我正在使用它:

Dim reader As XmlTextReader = New XmlTextReader("location of xml file")    

Do While (reader.Read())
                Select Case reader.NodeType
                    Case XmlNodeType.Text 'Display the text in each element.
                         'code goes here
                End Select

Loop

我一直在寻找互联网寻求帮助,我找到了一些有用的文章,但到目前为止,我的代码仍然无效。任何帮助(甚至是有用的链接)都会很棒!

谢谢!

0 个答案:

没有答案