我目前正在抓捕一个网站,以便能够在本地对数据进行排序,但是,当我这样做时,代码似乎是不完整的,在滚动浏览网站以添加更多内容时,我可能会有所变化。这会发生吗?如果是这样,如何确保我可以刮除整个网站进行处理?
我目前仅了解用于网络抓取的一些python和html,研究哪些其他元素可能会影响此问题(javascript或ReactJS等)。
我希望在抓取网站时会得到50个名称的列表,但它只返回13。我已经下载了整个HTML文件以进行浏览,并且文件中似乎没有其他名称,即为什么我认为文件可能正在动态更改
答案 0 :(得分:0)
是的,HTML的内容可以是动态的,并且Javascript加载应该是最重要的。对于Python,scrapy + splash可能是入门的好选择。
根据数据的处理方式,可以使用不同的方法来处理动态内容HTML