如何从Google学术搜索网站抓取特定标签的所有子标签

时间:2019-01-26 10:23:50

标签: python web web-scraping

我正在尝试从Google学术搜索个人资料中抓取数据,例如this site

浏览网站时。我想抓取div标签中gsc_vcd_value类中所有共同作者的姓名,但是我不能直接这样做,所以我尝试按顺序进行。我的确切问题是,直到ID为div的{​​{1}}标记之前,我都能抓取所有内容,即特定标记中包含的所有(即所有子标记),但是之后我尝试执行与ID为gs_md_cita-d-bdy的{​​{1}}标签相同,我只是得到标签本身作为回报。我没有得到children标签作为回报,我只是得到标签本身。请提出建议我想念什么?

当我尝试打印r_tag时,我得到

div

依此类推,因此基本上所有标签中的所有内容(例如children标签和所有 但是当我尝试打印s_tag时,我只会得到

gs_md_cita-l

每次迭代仅使用标签值。

<div class="gs_md_bdy" id="gs_md_cita-d-bdy"><style>#gs_md_cita-  

d{width:90%;max-width:1000px;}.gs_el_ph #gs_md_cita-d{width:100%;max-    

width:none;}#gs_md_cita-d .gs_md_prg{min-height:600px;}#gs_md_cita-

title,#gs_md_cita-b-edit,#gs_md_cita-b-trash,#gs_md_cita-

b-upload,#gs_md_cita-b-rstr,#gs_md_cita-b-delf,#gs_md_cita-

b-save{display:none;}.gs_md_cita-view #gs_md_cita-b-edit,.gs_md_cita-        view 

#gs_md_cita-b-trash,.gs_md_cita-view.gs_md_cita-allow_upload            #gs_md_cita- b-upload,.gs_md_cita-upload #gs_md_cita-title,.gs_md_cita-trash #gs_md_cita-

b-rstr,.gs_md_cita-trash #gs_md_cita-b-delf,.gs_md_cita-edit #gs_md_cita-

b-save{display:inline-block;}#gs_md_cita-b-trash,#gs_md_cita-

b-upload,#gs_md_cita-b-delf{margin-left:16px;}</style><div aria-

live="assertive" id="gs_md_cita-l"></div></div>...

0 个答案:

没有答案