Question

很明显，我是Python和BS的新手。

我正在尝试使用BeautifulSoup从网站获取信息，这是我要从中提取数据的块：

        <div class="log-main">
        <div class="report">
        <div class="date">
            <p class="posted">Posted on  October&nbsp;22, 2018
            </p>   
        </div>


        <h1>Upper Bay Largemouth Bass Stocking</h1>
        <p class="subP">
            Type: <strong>Tidal</strong><br />
            Region: <strong>Central</strong><br />
            Location: <strong>Middle River</strong>
        </p>

我想要的结果是没有日期的日期，所以是2018年10月22日，类型：地区：和位置：作为列表，但没有标题，因此只有强标签（潮汐，中部和中河）。

    October 22, 2018
    Tidal
    Central
    Middle River

这是我的代码：

    import requests
    from bs4 import BeautifulSoup
    r = 
    requests.get('http://dnrweb.dnr.state.md.us/fisheries/fishingreport/log- 
    1.asp')
    soup = BeautifulSoup (r.text, 'html.parser')

    date = soup.find_all ('p', attrs={'class':'posted'})

    data = soup.find_all ('p', attrs={'class':'subP'})

    for strong_tag in data:
         print strong_tag.text

    for p_tag in date:
         print p_tag.text

我的结果：

    Type: Tidal

            Region: Central

            Location: Middle River

    Posted on  October 22, 2018

这个想法是我想最终将其导入到Excel电子表格中，但是我觉得自己已经接近了。虽然我可能会完全离开。我已经尝试了几件事，但是很难通过类似的视频/主题找到确切的答案。感谢您提供的所有帮助，我非常感谢！

如何使用Python和BeautifulSoup删除标记之前和之中的单词？

0 个答案: