Question

我在标签的href中有这个字符串 -

member.php?mode=&amp;g=user&start=100

现在我的BeautifulSoup将其解析为 -

memberlist.php?mode=&g=user&start=100

没有提供所需的页面 -

这是&是什么以及如何解决这个问题

Answer 1

这是一个特殊字符串，表示＆符号，即“＆amp;”。

编辑：我刚刚尝试使用您other SO question中的代码重现此内容，并且它可以正常运行。

>>> from bs4 import BeautifulSoup
>>> html_doc = """
... <html><head><title>Test HTML page</title></head>
... <p class="title"><b>Test HTML page</b></p>
...
... <p class="links">Links:
... <a href="./member.php?mode=&amp;g=user&start=100">Next</a>
... </p>
... </html>
... """

>>> soup = BeautifulSoup(html_doc)
>>> mylinks = soup.find_all("a", text="Next")
>>> print mylinks
[<a href="./member.php?mode=&amp;g=user&amp;start=100">Next</a>]

您使用的是什么版本的美丽汤？

scrapy没有解析一些url字符

1 个答案: