scrapy没有解析一些url字符

时间:2012-12-14 07:38:30

标签: python parsing web-scraping beautifulsoup

我在标签的href中有这个字符串 -

member.php?mode=&g=user&start=100

现在我的BeautifulSoup将其解析为 -

memberlist.php?mode=&g=user&start=100

没有提供所需的页面 -

这是&是什么以及如何解决这个问题

1 个答案:

答案 0 :(得分:0)

这是一个特殊字符串,表示&符号,即“&”。

编辑:我刚刚尝试使用您other SO question中的代码重现此内容,并且它可以正常运行。

>>> from bs4 import BeautifulSoup
>>> html_doc = """
... <html><head><title>Test HTML page</title></head>
... <p class="title"><b>Test HTML page</b></p>
...
... <p class="links">Links:
... <a href="./member.php?mode=&amp;g=user&start=100">Next</a>
... </p>
... </html>
... """

>>> soup = BeautifulSoup(html_doc)
>>> mylinks = soup.find_all("a", text="Next")
>>> print mylinks
[<a href="./member.php?mode=&amp;g=user&amp;start=100">Next</a>]

您使用的是什么版本的美丽汤?