I am trying to record the DataCamp courses I have done by using a web scraper. First kudos to this guy, who has built something along my needs,Nextjs Link组件对SEO友好吗?
但是,最近DataCamp对其网站进行了更改,现在综合课程数据不再使用JSON,而是似乎以嵌套列表的字符串表示形式存储。
如果您查看其中一个章节页面的source,则正文中的第一个元素是:
<body><script>window.PRELOADED_STATE = "["~#iM",["preFetchedData",["^0",["course",["^0",["status","SUCCESS","data",["^ ","id",58,"title","Introduction to R ...
因此,原始刮板能够依靠JSON并通过dict键提取信息。有一个想法字段,所以一旦有了基础数据列表,我应该应该能够提取数据。
我尝试通过ast.literal_eval
提取字符串表示形式,但这没有用。知道如何使该列表可用吗?