使用BS4从Span刮掉“ new”标志

时间:2018-07-12 14:54:01

标签: python-3.x pandas web-scraping beautifulsoup

我从span标记中看到了关于文本的类似问题,但是我似乎无法使其正常工作。我推测/猜测它是因为我在脚本的前面删除了部分行,但是不确定。我正在抓捕确实,想知道他们是否将工作标记为“新”。抱歉为屏幕截图显示,但我试图保持问题的清洁度。

目标是从突出显示的范围中返回以下数据和“ new”文本。

HTML Inspection

df = pd.DataFrame(columns=["Title","Location","Company","Salary","Descr","New_Flag"])
soup = BeautifulSoup(html.content, 'html.parser', from_encoding="utf-8")
        for item in soup.find_all(class_= "result" ):
            try: 
                title = item.find(class_='jobtitle').text.replace('\n', '')
            except:
                title = None
            try:
                location = item.find('span', {'class':"location" }).text.replace('\n', '')
            except:
                location = None
            try: 
                company = item.find(class_='company').text.replace('\n', '')
            except:
                company = None
            try:
                salary = item.find('span', {'class':'no-wrap'}).text
            except:
                salary = None
            try:
                descr = item.find('span', {'class':'summary'}).text.replace('\n', '')
            except:
                descr = None
            try:
                new_flag = item.find('span', {'class':'new'}).text
            except:
                new_flag = None

我没有收到任何错误,但在数据框中也没有收到任何结果。如果我删除了new_flag组件,它将起作用。

谢谢。

0 个答案:

没有答案