尝试查找汤的文本。find_all('a','href')

时间:2019-01-01 00:39:18

标签: python python-3.x

因此,我想获得'ach1_daily_smgm_history'部分,不要加上引号。另外,我想捕获其他几个文本元素,并将所有内容组合到一个数据框中,因此它是有序且易于使用的。到目前为止,我的代码看起来像这样。

df = pd.DataFrame({'texttitle': [],'textnumbers': []})

for link in page_source:
    wd.get(link)
    print(link)
    html_page = wd.page_source 
    soup = bs(html_page, 'html.parser')
    for link in soup.find_all('a','href'):
        texttitle = [{link.find_all('href')}]
        print(texttitle)
        findtext = bs(html_page, 'html.parser')
        textnumbers = [{'text':a.text, 'color':b['stroke']} for a, b in zip(findtext.find_all('text'), findtext.find_all('circle')) if a.text]
        print(textnumbers)
        df['final'] = df['texttitle'] + df['textnumbers']

'textnumbers'可以正常工作,只是“ texttitle”给我带来了麻烦。我希望最终的数据框看起来像这样:

[{ach1_daily_smgm_history},{'text': '3', 'color': 'green'}, {'text': '15', 'color': 'red'}, 
{ach2_daily_smgm_history},{'text': '28', 'color': 'orange'}, {'text': '62', 'color': 'green'},
etc., etc., 

我正在尝试按照上面的顺序安排一切,或者说最有意义的安排。我只想将所有内容加载到数据框中,因此这些数据元素易于使用。我如何实现我的目标?谢谢,新年快乐!

0 个答案:

没有答案