如何使用python从纯文本文件中的任何网站中提取正文内容?

时间:2015-03-22 21:41:22

标签: python

我是python的新手,我必须使用python从网站的主体中提取段落而不使用维基百科的Api

编写一个python脚本,通过命令行给出一个URL,将使用python std打印网站的简历(段落和标题)。图书馆。 即使有任何帮助 - 脚本将返回第一段

,我也很感激

艺术门户 艺术是一个巨大的文化细分,由许多创造性的努力和学科组成。 ........ 精选文章 时光之泉是Lorado Taft的雕塑,长126英尺10英寸(38.66米).........

1 个答案:

答案 0 :(得分:0)

我建议你看一下使用 BeautifulSoup this tutorial。然后使用浏览器(使用Firebug的Firefox,右键单击并使用Firebug检查元素)查看包含要包含在摘要中的文本的HTML元素,通过BeautifulSoup find方法之一选择它们。使用get_text(),如教程的部分从页面中提取所有文本

您的任务文本位于div元素