Question

我正在从网站制作一个简单的mp3下载器。这样做我在解析音频的时间和大小时卡住了：

<div class="mp3-info">
    1.69 mins
<br/>
    2.33 mb
</div>

现在我需要从HTML上面解析1.69 mins和2.33 mb。我正在使用python 3.4

Answer 1

我会使用BeautifulSoup4来解析您的HTML。请参阅文档here。

import BeautifulSoup
soup = BeautifulSoup.BeautifulSoup(your_html_string)
soup.findAll("div", {"class": "mp3-info"})
# Now extract the text

另外，因为它是一个类，可能是页面上有多个......

Answer 2

您可以使用lxml库从HTML中提取文本。

在获得文本的长度和大小后，然后将它们分开。 E.g。

 text = ... extract element text using lxml
 minutes, min_suffix, megabytes, mega_suffix = text.split()

 seconds = float(minutes) * 60.0