很长时间以来,我一直在使用Google表格importxml抓取seekalpha。最近,我发现抓取寻求alpha的新闻非常困难。
例如,为了简化来自“ https://seekingalpha.com/news/3611919-epic-makes-another-attempt-reversing-fortnite-app-store-ban”的新闻,我使用公式:
= JOIN(CHAR(13),importxml(“ https://seekingalpha.com/news/3611919-epic-makes-another-attempt-reversing-fortnite-app-store-ban”,“ // div [ @ id ='bullets_ul']“))
在大多数情况下,它将出现错误:无法获取url。
过去,我可以在网址中添加“#1234”或其他数字以再次“强制”下载。但是,这种方法最近似乎不起作用。
有什么想法可以使新闻下载更加可靠?
非常感谢您阅读我的问题。
此致
特里
答案 0 :(得分:0)
您正在寻找一种强制IMPORTXML刷新的方法。似乎没有快捷键可用于此操作,因此您可以find an apps-script to do that来代替,也可以这样操作。 (我敢肯定还有其他方法可以做到这一点。)
=JOIN(,importxml(REPT(" ",B1)&"https://seekingalpha.com/news/3611919-epic-makes-another-attempt-reversing-fortnite-app-store-ban","//div[@id='bullets_ul']"))
通过更改URL,导入将刷新,因此当我们取消选中或选中该框时,REPT
会在URL前面附加0或1个空格。
否,我们不能使用任何功能,例如RAND()
(或任何相关功能)或NOW()
。
答案 1 :(得分:0)
请改用ImportFromWeb()函数。 您将必须安装附加组件: https://gsuite.google.com/marketplace/app/importfromweb_easy_web_scraping/278587576794
然后只需将IMPORTXML函数替换为IMPORTFROMWEB。 默认情况下,数据会缓存24小时,但是您可以从菜单中手动更新。
您还可以使用付费计划设置自动更新