背景:我刚学会了如何使用" Webdriver"和#34; Beautifulsoup"两天。
问题: 我使用以下代码下载网页:
from selenium import webdriver
from bs4 import BeautifulSoup
driver = webdriver.PhantomJS(executable_path)
driver.get('https://mojim.com/twy100468x17x18.htm')
pageSource = driver.page_source
...
然后,我遇到了这个错误
WebDriverException: Message: URIError - String contained an illegal UTF-16 sequence.
尝试:我尝试用{替换pageSource = browser.page_source
(driver.page_source).encode('ascii', 'ignore')
(driver.page_source).encode('utf-8')
(由here建议)
但仍然以同样的错误结束....
页面来源 here
我该怎么办?在HTML中是否有非法文本或什么?
谢谢