我对网络抓取还很陌生,因此尝试在此页面上的CV列表中抓取实际文本:https://resumes.indeed.com/search?q=nurse&l=Wolverhampton%2C+West+Midlands&searchFields=jt
但是,当我在浏览器中查看直接源代码时,文本不存在,它正在为列表加载另一个URL(在iframe中?不确定),该URL在源代码中的某个地方显示乱码。任何有更多经验的人都可以算出我需要抓取的实际URL,以获取上面链接中显示的所有文本吗?请注意,当我尝试使用不同的l
参数值加载相同的域时,源代码中的唯一区别似乎是以下部分,因此,我假定为此CV列表加载的URL在此处的某些位置显示乱码:
...
q \ x3dnurse \ x26l \ x3dWolverhampton%2C + West + Midlands \ x26searchFields \ x3djt \ x22,\ x22currentUrl \ x22:\ x22https:\ u002F \ u002Fresumes.indeed.com \ u002Fsearch?q \ x3dnurseton \ x26 2C + West + Midlands \ x26searchFields \ x3djt \ x22,\ x22emailAddress \ x22:\ x22 \ x22,\ x22featuredEmployer \ x22:false,\ x22isMasquerade \ x22:false,\ x22language \ x22:\ x22en \ x22,\ x22locale \ x22 :\ x22en_GB \ x22,\ x22loggedIn \ x22:false,\ x22化装舞会\ x22:false,\ x22moderated \ x22:false,\ x22privileged \ x22:false,\ x22showLaunchBanner \ x22:false,\ x22subscriptionStatus \ x22:{\ x22admin \ x22:false,\ x22bulkContact \ x22:false,\ x22contactsRemaining \ x22:0,\ x22hasUnassignedSubscription \ x22:false,\ x22hasUnlimitedContacts \ x22:false,\ x22subscriptionAssigned \ x22:false,\ x22trial \ x22:false},\ x22subscriptionsEnabled \ x22:true},\ x22tk \ x22:\ x221cuebqcud393o800 \ x22}');
还使用某些特殊的标头还是访问数据时需要包含的标头?看看我在这里检查过的其他问题,如果是这样的话,我不知道如何使用Chrome Devtools查找使用的标头,就像这个人显然所做的那样: Screen scraping actual page not source html with R
在上面的代码之前,有一个'csrftoken',它看起来像某种十六进制密钥,如果我从其他浏览器重新加载页面,则确实有所不同,我是否需要在某个地方将其抓取:
x22indeedcsrftoken\x22,\x22csrfToken\x22:\x22WCP4hlkYFgKtzUPXAO4iKBaWPP3nApeQ\
我将使用Excel VBA至少从头开始。稍后使用Python,但我认为该语言对于此问题无关紧要。谢谢您的任何建议。