我正在尝试解析此网站:http://www.takeuchi-cycle.com/category/激安中古自転車情報/
target_url = "http://www.takeuchi-cycle.com/category/激安中古自転車情報/"
response = requests.get(target_url)
response.raise_for_status()
然后我加入它:
soup = bs4.BeautifulSoup(response.text)
然而,当我尝试soup.find("div", {"id": "maincolumn"})
时,我得到以下内容:
<div id="maincolumn">
<div class="post">
<h2>Not Found</h2>
<div class="entry">
<p>Sorry, but you are looking for something that isn't here.</p>
</div>
</div>
</div
此位既不出现在网站上也不出现在soup.prettify()中。而是显示所有列表。 soup.select("div")
和soup.findAll("div", class_="post")
也会返回类似的内容。 html5lib
不起作用,即使我安装了lxml,也无法访问lxml.parser
。
造成这种情况的原因是什么,以及如何才能使其发挥作用?
编辑:将网址更改为http://www.takeuchi-cycle.com/category/%E6%BF%80%E5%AE%89%E4%B8%AD%E5%8F%A4%E8%BB%8A%E6%83%85%E5%A0%B1/即可生效。但除标题外,两者的内容相同。第一个说'#34;页面未找到&#34;,我想因为它找不到使用者,而另一个说'#34;对于PC。&#34;但问题仍然存在。