网站抓取到列表

时间:2019-11-21 22:20:49

标签: python html python-3.x python-2.7 beautifulsoup

我正在尝试使用BeautifulSoup将以下标签添加到应如下所示的列表中。 [Computer Science 1026A/B,Computer Science 2120A/B,Engineering Science 1036A/B, Digital Humatities 2220A/B]

我已尽我所能想到的一切。问题在于,这个<div>类似乎没有名称

<div><strong>Antirequisite(s):</strong> <a
        href="Courses.cfm?CourseAcadCalendarID=MAIN_006440_1&amp;SelectedCalendar=Live&amp;ArchiveID=">Computer Science
    1026A/B,</a> <a href="Courses.cfm?CourseAcadCalendarID=MAIN_023958_1&amp;SelectedCalendar=Live&amp;ArchiveID=">Computer
    Science 2120A/B,</a> <a
        href="Courses.cfm?CourseAcadCalendarID=MAIN_019426_1&amp;SelectedCalendar=Live&amp;ArchiveID=">Engineering
    Science 1036A/B,</a> Digital Humatities 2220A/B.
</div>

1 个答案:

答案 0 :(得分:1)

您可以使用://strong[contains(text(),"Antirequisite")]/following-sibling::a/text()遍历包含“必要”文本的所有元素并获取文本。