查询:为什么我的正则表达式代码不能读取所有字符?

时间:2013-02-03 21:15:50

标签: python regex web-scraping

我有以下描述我想要使用我的程序废料。

<hr>为AFROTC学员提供多达13种选择,以进行实际领导和专业培训 通过接触美国空军的职能,部署和就业活动。外语和文化沉浸也可用/可能,但总体重点仍然是领导力发展和实践。所有项目都在选定的空军基地以及美国和国外的其他地点进行。<br>

我有以下代码:

findDescription = re.findall('<hr>(.*?)(?:<strong>|<br>)', coursePage)

我得到以下输出:

['通过接触美国空军的职能,部署和就业运营,为AFROTC学员提供多达13种实用领导和专业培训选项。\ xc2 \ xa0外语和文化沉浸也可用/可能但总体重点仍然是领导力发展和实习。\ xc2 \ xa0所有节目都在选定的空军基地以及美国和国外的其他地点进行。']

为什么我会在这里找到像\xc2\xa0这样奇怪的东西?我的代码也会被引号"绊倒。坦率地说,我相信我的正则表达式代码中的句点.应该接受所有字符串。出了什么问题?

我很欣赏任何快速提示。我星期五只听说过正则表达式而且我已经取得了巨大的进步,但是这个让我真的绊了几个小时。

温馨的问候, GeekyOmega

1 个答案:

答案 0 :(得分:5)

\ xC2 \ xA0是unicode字符0xA0的UTF-8编码,通常写为&amp; nbsp;在html文件中。