python beautifulsoup截断代码标记之间的文本

时间:2013-06-04 05:44:58

标签: python beautifulsoup

您好我正在使用IRC bot命令从twitter获取帖子

我正在使用api.twitter.com,它以xml格式列出了一个页面。推文的时间列为

<created_at>Tue Jun 04 01:12:59 +0000 2013</created_at>

我想获得标签之间的前10个字符。

我试过

time = soup.findAll('created_at')[:10]

但是会返回错误。

1 个答案:

答案 0 :(得分:3)

查找所有内容将返回文档中的标记created_at列表。当你切片时,你正在切割这个标签列表而不是标签内的文本(我怀疑切片本身会给你一个错误。另外,当你提到错误时,请说出错误是什么!)。< / p>

您可以通过执行以下操作进行验证:

time = soup.findAll('created_at')
type(time[0]) # returns <class 'bs4.element.Tag'>

一种可行的方法,你可以做你想做的事情:

time = soup.created_at.string[:10]