此HTML字符串的Python RegEx

时间:2015-06-09 13:49:48

标签: python html regex html-parsing

我有一个类似的字符串:

<span class=\"market_listing_price market_listing_price_with_fee\">\r
\t\t\t\t\t&#36;92.53 USD\t\t\t\t<\/span>

我需要通过RegEx找到这个字符串。我的尝试:

(^<span class=\\"market_listing_price market_listing_price_with_fee\\">\\r\\t\\t\\t\\t\\t&)

但我的问题是,“\ t”和“\ r”的计数可能会有所不同。当然,这不是整个字符串的正则表达式..仅适用于其中的一部分。

那么,这个字符串的正确和完整RegEx是什么?

2 个答案:

答案 0 :(得分:0)

由于这是一个HTML字符串,我建议使用 HTML Parser ,如BeautifulSoup

以下是使用CSS selector

按类属性值查找元素的示例方法
from bs4 import BeautifulSoup

data = "my HTML data" 

soup = BeautifulSoup(data)
result = soup.select("span.market_listing_price.market_listing_price_with_fee")

另见:

答案 1 :(得分:0)

回答有关正则表达式的问题:

"market_listing_price market_listing_price_with_fee\\">[\\r]*[\\t]*&

这将捕获您需要的字符串。即使你添加更多\ t或\ r \ n。 如果您需要编辑此正则表达式,我建议您访问this网站并对其进行测试修改。它还可以帮助您了解正则表达式的工作原理并构建您自己的完整RegEx。