我是python的新手,我必须使用python从网站的主体中提取段落而不使用维基百科的Api
编写一个python脚本,通过命令行给出一个URL,将使用python std打印网站的简历(段落和标题)。图书馆。 即使有任何帮助 - 脚本将返回第一段
,我也很感激艺术门户 艺术是一个巨大的文化细分,由许多创造性的努力和学科组成。 ........ 精选文章 时光之泉是Lorado Taft的雕塑,长126英尺10英寸(38.66米).........
答案 0 :(得分:0)
我建议你看一下使用 BeautifulSoup 的this tutorial。然后使用浏览器(使用Firebug的Firefox,右键单击并使用Firebug检查元素)查看包含要包含在摘要中的文本的HTML元素,通过BeautifulSoup find
方法之一选择它们。使用get_text()
,如教程的部分从页面中提取所有文本
您的任务文本位于div
元素