如何处理不友好(非标准)的URL - 在Python中进行刮擦

时间:2015-04-16 09:36:37

标签: url web-scraping token

当我有2个不同的股票代码的非统一网址时,这样:

  

http://www.exampledomain/t/23353/msft
  http://www.exampledomain/t/40090/aapl

他们不仅在URL结尾处的股票代码名称不同,而且还有专有的股票代码号码。在从本网站抓取新闻之前,我在之前无法知道的URL中间。

我怎么能成功地从这个网站上刮掉。我只看到一个解决方案,即。使用硒来搜索自动收报机并让它显示新闻,我有兴趣继续收获它们。

是否有一种简单的Python方式来处理这样的不友好的URL?

0 个答案:

没有答案