因此,我想获得'ach1_daily_smgm_history'
部分,不要加上引号。另外,我想捕获其他几个文本元素,并将所有内容组合到一个数据框中,因此它是有序且易于使用的。到目前为止,我的代码看起来像这样。
df = pd.DataFrame({'texttitle': [],'textnumbers': []})
for link in page_source:
wd.get(link)
print(link)
html_page = wd.page_source
soup = bs(html_page, 'html.parser')
for link in soup.find_all('a','href'):
texttitle = [{link.find_all('href')}]
print(texttitle)
findtext = bs(html_page, 'html.parser')
textnumbers = [{'text':a.text, 'color':b['stroke']} for a, b in zip(findtext.find_all('text'), findtext.find_all('circle')) if a.text]
print(textnumbers)
df['final'] = df['texttitle'] + df['textnumbers']
'textnumbers'可以正常工作,只是“ texttitle”给我带来了麻烦。我希望最终的数据框看起来像这样:
[{ach1_daily_smgm_history},{'text': '3', 'color': 'green'}, {'text': '15', 'color': 'red'},
{ach2_daily_smgm_history},{'text': '28', 'color': 'orange'}, {'text': '62', 'color': 'green'},
etc., etc.,
我正在尝试按照上面的顺序安排一切,或者说最有意义的安排。我只想将所有内容加载到数据框中,因此这些数据元素易于使用。我如何实现我的目标?谢谢,新年快乐!