复制网站中指定div区域的文本

时间:2015-05-18 18:03:51

标签: php html bash

这是链接:http://www.senecacollege.ca/ce/classes/ (您应该从下拉列表中选择“全部”以查看完整的课程列表)

此链接包含我所在学校的课程代码和课程名称。我正在开展一个学校项目(网站),在这个网站上,其他学生应该可以选择他们的课程。因此,我必须将网站中的课程保存到数据库中,并为用户提供下拉菜单或其他选项来选择课程。

问题是,有很多课程我无法用手打字。所以,我正在考虑某种类型的脚本,它将从网站获取必要的信息并保存到文本文件中,从那里我可以编写脚本将课程复制到我的数据库中。

我检查了源HTML代码,我发现课程代码是用p标签编写的,其中“results-credential”为类名,课程名称保存在h3标签中。

在此之前,我编写了一个脚本,该脚本从浏览器中读取选项卡名称,但我不知道如何为正文中的特定HTML标记执行此操作。

1 个答案:

答案 0 :(得分:0)

如果你的目标是从内部提取一个看起来像这样的标签:<p id="results-credentials>course name to extract</p>"你可以使用BeautifulSoup Python库来解析HTML和XML。代码看起来类似于以下内容,但您可能需要针对您的用例进行一些调整。

from bs4 import BeautifulSoup
soup = BeautifulSoup(your_html_doc)
course_name = soup.find_all(id="results-credentials")

我之前使用过BS并且它非常简单,但是当我发现自己解析HTML时,我通常会重新考虑我的策略,因为格式错误的HTML无处不在,可能会导致很多问题。如果您有权访问数据库,那么我将从数据库中提取名称。但是如果你必须解析HTML,那么BS就会非常简单。