应用错误收集

如何使用python从纯文本文件中的任何网站中提取正文内容？

时间：2015-03-22 21:41:22

标签： python

我是python的新手，我必须使用python从网站的主体中提取段落而不使用维基百科的Api

编写一个python脚本，通过命令行给出一个URL，将使用python std打印网站的简历（段落和标题）。图书馆。即使有任何帮助 - 脚本将返回第一段

，我也很感激

我说我打电话 $ python pagesummary.py https://en.wikipedia.org/wiki/Portal:Arts 并返回如下所示的内容

艺术门户 艺术是一个巨大的文化细分，由许多创造性的努力和学科组成。 ........ 精选文章 时光之泉是Lorado Taft的雕塑，长126英尺10英寸（38.66米）.........

1 个答案:

答案 0 :(得分：0)

我建议你看一下使用 BeautifulSoup 的this tutorial。然后使用浏览器（使用Firebug的Firefox，右键单击并使用Firebug检查元素）查看包含要包含在摘要中的文本的HTML元素，通过BeautifulSoup find方法之一选择它们。使用get_text()，如教程的部分从页面中提取所有文本

您的任务文本位于div元素

中