Question

我对网络抓取还很陌生，因此尝试在此页面上的CV列表中抓取实际文本：https://resumes.indeed.com/search?q=nurse&l=Wolverhampton%2C+West+Midlands&searchFields=jt

但是，当我在浏览器中查看直接源代码时，文本不存在，它正在为列表加载另一个URL（在iframe中？不确定），该URL在源代码中的某个地方显示乱码。任何有更多经验的人都可以算出我需要抓取的实际URL，以获取上面链接中显示的所有文本吗？请注意，当我尝试使用不同的l参数值加载相同的域时，源代码中的唯一区别似乎是以下部分，因此，我假定为此CV列表加载的URL在此处的某些位置显示乱码： ...

q \ x3dnurse \ x26l \ x3dWolverhampton％2C + West + Midlands \ x26searchFields \ x3djt \ x22，\ x22currentUrl \ x22：\ x22https：\ u002F \ u002Fresumes.indeed.com \ u002Fsearch？q \ x3dnurseton \ x26 2C + West + Midlands \ x26searchFields \ x3djt \ x22，\ x22emailAddress \ x22：\ x22 \ x22，\ x22featuredEmployer \ x22：false，\ x22isMasquerade \ x22：false，\ x22language \ x22：\ x22en \ x22，\ x22locale \ x22 ：\ x22en_GB \ x22，\ x22loggedIn \ x22：false，\ x22化装舞会\ x22：false，\ x22moderated \ x22：false，\ x22privileged \ x22：false，\ x22showLaunchBanner \ x22：false，\ x22subscriptionStatus \ x22：{\ x22admin \ x22：false，\ x22bulkContact \ x22：false，\ x22contactsRemaining \ x22：0，\ x22hasUnassignedSubscription \ x22：false，\ x22hasUnlimitedContacts \ x22：false，\ x22subscriptionAssigned \ x22：false，\ x22trial \ x22：false}，\ x22subscriptionsEnabled \ x22：true}，\ x22tk \ x22：\ x221cuebqcud393o800 \ x22}'）;

还使用某些特殊的标头还是访问数据时需要包含的标头？看看我在这里检查过的其他问题，如果是这样的话，我不知道如何使用Chrome Devtools查找使用的标头，就像这个人显然所做的那样： Screen scraping actual page not source html with R

在上面的代码之前，有一个'csrftoken'，它看起来像某种十六进制密钥，如果我从其他浏览器重新加载页面，则确实有所不同，我是否需要在某个地方将其抓取：

x22indeedcsrftoken\x22,\x22csrfToken\x22:\x22WCP4hlkYFgKtzUPXAO4iKBaWPP3nApeQ\

我将使用Excel VBA至少从头开始。稍后使用Python，但我认为该语言对于此问题无关紧要。谢谢您的任何建议。

查找在源代码中出现乱码时加载的实际URL

0 个答案: