BS4无法读取出现在美化中的div?

时间:2016-04-28 05:02:00

标签: python html wordpress beautifulsoup

我正在尝试解析此网站:http://www.takeuchi-cycle.com/category/激安中古自転車情報/

target_url = "http://www.takeuchi-cycle.com/category/激安中古自転車情報/"
response = requests.get(target_url)
response.raise_for_status()

然后我加入它:

soup = bs4.BeautifulSoup(response.text)

然而,当我尝试soup.find("div", {"id": "maincolumn"})时,我得到以下内容:

<div id="maincolumn">
    <div class="post">
        <h2>Not Found</h2>
        <div class="entry">
            <p>Sorry, but you are looking for something that isn't here.</p>
        </div>
    </div>
</div

此位既不出现在网站上也不出现在soup.prettify()中。而是显示所有列表。 soup.select("div")soup.findAll("div", class_="post")也会返回类似的内容。 html5lib不起作用,即使我安装了lxml,也无法访问lxml.parser

造成这种情况的原因是什么,以及如何才能使其发挥作用?

编辑:将网址更改为http://www.takeuchi-cycle.com/category/%E6%BF%80%E5%AE%89%E4%B8%AD%E5%8F%A4%E8%BB%8A%E6%83%85%E5%A0%B1/即可生效。但除标题外,两者的内容相同。第一个说'#34;页面未找到&#34;,我想因为它找不到使用者,而另一个说'#34;对于PC。&#34;但问题仍然存在。

0 个答案:

没有答案