你能帮我找到正确的正则表达式,在这2页的每一次中提取(Margaux
或Saint-Julien
):
:Margaux, Rouge
:2ème Vin, Saint-Julien, Rouge
我的代码:
item ["appelation"] = res.select('.//div[@class="pro_col_right"]/div[@class="pro_blk_trans"]/div[@class="pro_blk_trans_titre"]/text()').re(r'\s*\w+\-\w+\-\w+|\w+\-\w+|\[^Rouge,Blanc]')
我的正则表达式找不到玛歌,但它提取圣朱利安!
答案 0 :(得分:0)
不确定为什么你需要这个但是假设s
是你的html文件,那么这个正则表达式会找到你要找的东西..
import re
m = re.search(r"\<div\ class=\"pro_blk_trans_titre\"\>(.*)\</div\>", s)
print(m.group(1).strip().encode("utf8"))
# page1: b'Margaux, Rouge'
# page2: b'2\xc3\xa8me Vin, Saint-Julien, Rouge'