通过python提取维基百科文章的介绍部分

时间:2010-11-28 02:37:43

标签: python html-content-extraction

我想提取维基百科文章的介绍部分(忽略所有其他内容,包括表格,图像和其他部分)。我查看了文章的html源代码,但是我没有看到任何包含此部分的特殊标签。

有人能给我一个快速解决方案吗?我正在编写python脚本。

谢谢

2 个答案:

答案 0 :(得分:3)

  1. 您可以查看 mwlib 来解析维基百科来源
  2. 或者,使用wikidump lib
  3. HTML屏幕抓取BeautifulSoup
  4. 啊,关于这个主题,SO上已经存在一个问题:

    1. Parsing a Wikipedia dump
    2. How to parse/extract data from a mediawiki marked-up article via python

答案 1 :(得分:0)

我认为您通常可以通过获取完整页面,删除所有表格,然后查找< p> ...< / p>的第一个序列来获取介绍文本。标记后的块。最后一点是这个正则表达式:

/<!-- bodytext -->.*?(<p>.*?<\/p>\s*)+/

使用.S选项。匹配换行符......