应用错误收集

时间：2019-01-02 14:59:17

标签： python web-scraping

我目前正在抓捕一个网站，以便能够在本地对数据进行排序，但是，当我这样做时，代码似乎是不完整的，在滚动浏览网站以添加更多内容时，我可能会有所变化。这会发生吗？如果是这样，如何确保我可以刮除整个网站进行处理？

我目前仅了解用于网络抓取的一些python和html，研究哪些其他元素可能会影响此问题（javascript或ReactJS等）。

我希望在抓取网站时会得到50个名称的列表，但它只返回13。我已经下载了整个HTML文件以进行浏览，并且文件中似乎没有其他名称，即为什么我认为文件可能正在动态更改

答案 0 :(得分：0)

是的，HTML的内容可以是动态的，并且Javascript加载应该是最重要的。对于Python，scrapy + splash可能是入门的好选择。

根据数据的处理方式，可以使用不同的方法来处理动态内容HTML