BeautifulSoup4 Get_Text()删除换行符?

时间:2016-01-07 13:57:53

标签: python python-2.7 web-scraping beautifulsoup

我对get_text()的问题与我通常使用的.Net相比有点问题我认为它删除了换行符,这使我无法解析数据

我正在以这种格式从网站上阅读课程:

4.1 £22 4 £27 3.9 £29 3.8 £106 3.75 £24 3.7 £24 

它遵循相同的格式:十进制价格十进制价格十进制价格等......

我已经在.Net中完成了这项工作,并且element.innertext返回了一个字符串,其中包含换行符。

我能够做到这样的事情:

Dim spltexample As String() = element.innertext.Split(New String() {Environment.NewLine},
                                           StringSplitOptions.None)

它会在每个结果中加上小数和价格。所以它看到了:

4.1 £22\n 4 £27\n 3.9 £29\n 3.8 £106\n 3.75 £24\n 3.7 £24 

我的问题是BS4似乎以稍微不同的格式得到它 - 而且我真的希望这是我可以改变的。

4.1 £224 £273.9 £29 3.8 £1063.75 £243.7 £24

通过删除新行将小数压缩到前一个价格中。

数据可能非常尴尬。这些数字不会是静态的,我需要知道有多少小数和价格的组合。 .Net会给我一个列表:

4.1 £22
4 £27
3.9 £29
3.8 £106
3.75 £24
3.7 £24

当前代码:

for result in soup.find_all("span", {"class" : "classname"}):
            List_Of_Results.append(result .get_text())

示例输出:

  4.1 £224 £273.9 £29 3.8 £1063.75 £243.7 £24 

这让我在水中死了。还有什么我可以用来获取数据并保持线条完整,以便我可以使用它们吗?

0 个答案:

没有答案