美丽的汤。文本提取到数据帧中

时间:2018-04-16 22:10:02

标签: python pandas beautifulsoup

我试图从包含多个类似结构化录音的单个网页中提取信息。信息包含在具有不同类别的 div 标签中(我对用户名,主要文本和日期感兴趣)。这是我使用的代码:

sudo ./setup.sh -p 3.5

问题是我收到所有标签的信息,而我只想要一个文本。令人惊讶的是, .text 属性不能与 find_all 方法一起使用,所以现在我完全没有使用ide。

感谢您的帮助!

1 个答案:

答案 0 :(得分:0)

列表理解是要走的路,例如,在MainText中获取所有文本,试试

[elem.text for elem in soup.find_all('div', class_='MainText')]