我正在尝试阅读网页的来源,但不知怎的,我找不到正确的。
在浏览器中键入url并使用python读取相同的url会返回不同的结果。我猜这是因为脚本在浏览器中运行。但我似乎无法理解哪个剧本。
我的目标是获取我打开的页面的来源,输入以下网址:
打印的HTML源代码不是我输入的网址,而是父网页的源代码。
我的python脚本:
item_url = 'http://www.topshop.com/webapp/wcs/stores/servlet/ProductDisplay?beginIndex=1&viewAllFlag=&catalogId=33057&storeId=12556&productId=10366631&langId=-1&sort_field=Relevance&categoryId=208523&parent_categoryId=203984&pageSize=20'
product_url = urllib.urlopen(item_url)
product_s = product_url.read()
print product_s
如何获取源代码(产品详情)?