我想提取维基百科文章的介绍部分(忽略所有其他内容,包括表格,图像和其他部分)。我查看了文章的html源代码,但是我没有看到任何包含此部分的特殊标签。
有人能给我一个快速解决方案吗?我正在编写python脚本。
谢谢
答案 0 :(得分:3)
啊,关于这个主题,SO上已经存在一个问题:
答案 1 :(得分:0)
我认为您通常可以通过获取完整页面,删除所有表格,然后查找< p> ...< / p>的第一个序列来获取介绍文本。标记后的块。最后一点是这个正则表达式:
/<!-- bodytext -->.*?(<p>.*?<\/p>\s*)+/
使用.S选项。匹配换行符......