Python 网页抓取列表项

时间:2021-03-09 20:51:37

标签: python web-scraping

我们有一个包含 IP 地址列表的内部网页。 IP 地址包含在列表项中。我对 Python 还是有点陌生​​,希望能得到一些指导。我想以逗号分隔这些 IP 的文本文件结束。

<li>192.168.1.1</li>

我正在使用公开网站来回答我的问题,但 HTML 源代码是相似的。

import requests
from bs4 import BeautifulSoup

URL = 'https://www.w3schools.com/html/tryit.asp?filename=tryhtml_lists_intro'
page = requests.get(URL)

soup = BeautifulSoup(page.content, 'html.parser')
list_items = soup.find_all('li')
print(list_items)

[<li>Coffee</li>, <li>Tea</li>, <li>Milk</li>, <li>Coffee</li>, <li>Tea</li>, <li>Milk</li>]

如何将 list_items 的输出进一步解析为如下所示的列表/文本文件:

咖啡、茶、牛奶、咖啡、茶、牛奶

谢谢!

1 个答案:

答案 0 :(得分:1)

您只是将整个标签添加到您的列表中,而不是它们的文本内容。

list_items = ", ".join([li.text for li in soup.find_all("li")])
print(list_items)
相关问题