使用Python从HTML中提取歌曲长度和大小

时间:2015-04-28 10:44:02

标签: python python-3.x

我正在从网站制作一个简单的mp3下载器。这样做我在解析音频的时间和大小时卡住了:

<div class="mp3-info">
    1.69 mins
<br/>
    2.33 mb
</div>

现在我需要从HTML上面解析1.69 mins2.33 mb。我正在使用python 3.4

2 个答案:

答案 0 :(得分:1)

我会使用BeautifulSoup4来解析您的HTML。请参阅文档here

import BeautifulSoup
soup = BeautifulSoup.BeautifulSoup(your_html_string)
soup.findAll("div", {"class": "mp3-info"})
# Now extract the text

另外,因为它是一个类,可能是页面上有多个......

答案 1 :(得分:0)

您可以使用lxml库从HTML中提取文本。

以下是StackOverflow问题https://stackoverflow.com/a/4624146/315168

在获得文本的长度和大小后,然后将它们分开。 E.g。

 text = ... extract element text using lxml
 minutes, min_suffix, megabytes, mega_suffix = text.split()

 seconds = float(minutes) * 60.0