Question

我已下载并解压缩完整的维基百科XML转储（60多GB，单个XML文件）'enwiki-20170820-pages-articles-multistream.xml.bz2
我对每页的标题和文字感兴趣。
我需要能够在每个文本中查找特定字符串，仅用于选定的标题。

问题：

1）如何有效清理XML文件？除了文本和标题字段之外，我想删除任何不相关的内容。

页面的示例可以是：

<page>
<title>Afrika</title>
<ns>0</ns>
<id>2</id>
<revision>
  <id>1428708</id>
  <parentid>1391377</parentid>
  <timestamp>2016-03-06T14:00:12Z</timestamp>
  <contributor>
    <username>SpesBona</username>
    <id>2720</id>
  </contributor>
  <comment>Uitgebrei</comment>
  <model>wikitext</model>
  <format>text/x-wiki</format>
  <text xml:space="preserve">
     '''Afrika''' is die wêreld se tweede grootste [[kontinent]] in sowel 
     oppervlakte as bevolking. Saam met die eilande beslaan dit ongeveer 
     30,221,532km² wat 20,3% van die totale landoppervlakte van die [[aarde]] 
     is en dit word bewoon deur meer as 1 miljard mense - ongeveer 'n sewende 
     van die wêreldbevolking. 
  </text>
</revision>

最好，我需要的唯一信息是：

<page>
   <title>Afrika</title>
   <text xml:space="preserve">
     '''Afrika''' is die wêreld se tweede grootste [[kontinent]] in sowel 
     oppervlakte as bevolking. Saam met die eilande beslaan dit ongeveer 
     30,221,532km² wat 20,3% van die totale landoppervlakte van die [[aarde]] 
     is en dit word bewoon deur meer as 1 miljard mense - ongeveer 'n sewende 
     van die wêreldbevolking. 
    </text>
 </page>

然而;我之前从未使用过XML或进行过任何XML解析，因此我对如何使用这么大的文件感到有点迷失。

我尝试过使用正则表达式，但我想知道是否有任何方法可以使用任何XML处理模块在Python中执行此操作？

2）当必须搜索如此庞大的文本文件时，什么是最佳数据结构？是否建议完全使用已清理的数据创建新文件，或者使用像MongoDB这样的数据库进行查找？

Answer 1

如果你有任何Python经验，你应该使用beautifulsoup库和lxml解析器来解析xml。它可以让您非常轻松，直观地浏览标签。 http://www2.hawaii.edu/~takebaya/cent110/xml_parse/xml_parse.html

要处理大数据大小，您可以将每个页面分成不同的文件，并使用glob将它们加载到Python中，并一次解析一个文件。 Find all files in a directory with extension .txt in Python

对于最终的数据结构，mongodb听起来不错。如果要进行全文搜索，请记住构建文本索引。 https://docs.mongodb.com/manual/core/index-text/

Answer 2

使用此Python代码将归档文件转换为单个文本文件，Python代码链接 “ https://svn.code.sf.net/p/apertium/svn/trunk/apertium-tools/WikiExtractor.py”

用法：

python3 WikiExtractor.py --infn dump.xml.bz2

有关更多信息： http://wiki.apertium.org/wiki/Wikipedia_Extractor

或者您也可以从此处下载旧的Wikipedia存档作为文本：

http://kopiwiki.dsd.sztaki.hu/

从维基百科XML转储

2 个答案: