当我使用
时page = urllib2.urlopen("https:somewebpage.com")
soup = BeautifulSoup(page,"html.parser")
soup.get_text()
我得到的结果看起来像一个表列表但不是它将其作为实际文本值返回:
["<a href='/path<a>","tableNameAAA","FINISHED","SUCCEEDED","<br title='100.0'> <div class='ui-progressbar ui-widget ui-widget-content ui-corner-all' title='100.0%'> ,"0"],
["<a href='/path<a>","tableNameBBB","INPROCESS","SUCCEEDED","<br title='100.0'> <div class='ui-progressbar ui-widget ui-widget-content ui-corner-all' title='100.0%'> ,"0"],...
如何将其转换为列表,以便我可以遍历它。我尝试做列表(soup.get_text()),但当我尝试迭代它时,香蕉:
...v', u'>', u'"', u',', u'"', u'<', u'a', u' ', u'...
我在迭代时的期望是: [list1的],[列表2]
而不是现在的“[list1],[list2]”
答案 0 :(得分:1)
最终我只删除了所有的单引号,然后列出了所有表可能在没有BS的情况下完成此操作,但它有效。