使用BeautifulSoup刮取特定网站

时间:2017-02-07 07:24:44

标签: html python-3.x beautifulsoup

您好StackExchange社区!

我正在尝试运行一个可以抓取以下网站的代码:http://apps.mmc.gov.my/searchmmc/main_search.php?action=detail&id=10000

进入一个数据集,其中包括姓名,资格,本科学位,临时注册号以及下面的实践地点。

由于网站的结构方式,我在过去几天一直在苦苦挣扎:

import pywinauto
window = pywinauto.findwindows.find_element(title_re='Microsoft Lync.*')
child = window.children()[3]
print(child.rich_text)  #  ///

如果我能弄清楚如何以结构化的方式提取名称和资格,那本身就是一项巨大的成就。

非常感谢您花时间阅读我的帖子。

1 个答案:

答案 0 :(得分:0)

NAME:JAPAR B ZAIRUN
QUALIFICATION:MD
UNDERGRADUATE OF:UNIVERSITI KEBANGSAAN MALAYSIA (UKM)
PROVISIONALREGISTRATION NUMBER:20159
DATE OFPROVISIONAL REGISTRATION:--
FULLREGISTRATION NUMBER:31398
DATE OFFULL REGISTRATION:16-06-1995

出:

static inline void f(int i) { A::f(i); }