汤链接神秘地缩短了吗?

时间:2018-08-24 14:57:14

标签: python python-3.x beautifulsoup

我一直在努力,随后向Google请求了很多链接,而我第一次遇到一些非常奇怪的行为。

google源页面具有以下结构的链接:<cite class="iUh30">www.kraso.sk/wp- content/uploads/sutaze/2015_2016/20151001_ont/</cite>

以上网址是导致我出现问题的网址。我运行以下简单代码段:

r = request_url(url=search, on_failure=None) # just applies .get() & handles errors
html = BeautifulSoup(r.text, "html.parser")
all_links = html.find_all("cite")


for link in all_links:
    logger.info(f"Examining link {link.text} for {db_event_name} {search_year}")
    logger.info(f"Is 2016 in {link.text}? {'2016' in link.text}")

并获得以下日志,以及当我尝试请求链接时出现404错误(通过浏览器访问时效果很好):

2018-08-24 15:38:23 - __main__ - INFO  - Examining link www.kraso.sk/wp-content/uploads/sutaze/2015.../20151001_ont/ for Nepela 2015
2018-08-24 15:38:23 - __main__ - INFO  - Is 2016 in www.kraso.sk/wp-content/uploads/sutaze/2015.../20151001_ont/? False

该测试(链接中为2016)应恢复为阳性,因为完整链接包含该测试。这似乎意味着日志中的“ 2015 ... /”部分实际上不是格式化目的的缩写,而是“ _2016”实际上已由“ ...”代替-通过比较print与日志,登录文件而不是控制台等。

有人以前看过此书还是知道如何处理?谢谢!

0 个答案:

没有答案