我有以下描述我想要使用我的程序废料。
<hr>
为AFROTC学员提供多达13种选择,以进行实际领导和专业培训
通过接触美国空军的职能,部署和就业活动。外语和文化沉浸也可用/可能,但总体重点仍然是领导力发展和实践。所有项目都在选定的空军基地以及美国和国外的其他地点进行。<br>
我有以下代码:
findDescription = re.findall('<hr>(.*?)(?:<strong>|<br>)', coursePage)
我得到以下输出:
['通过接触美国空军的职能,部署和就业运营,为AFROTC学员提供多达13种实用领导和专业培训选项。\ xc2 \ xa0外语和文化沉浸也可用/可能但总体重点仍然是领导力发展和实习。\ xc2 \ xa0所有节目都在选定的空军基地以及美国和国外的其他地点进行。']
为什么我会在这里找到像\xc2\xa0
这样奇怪的东西?我的代码也会被引号"
绊倒。坦率地说,我相信我的正则表达式代码中的句点.
应该接受所有字符串。出了什么问题?
我很欣赏任何快速提示。我星期五只听说过正则表达式而且我已经取得了巨大的进步,但是这个让我真的绊了几个小时。
温馨的问候, GeekyOmega
答案 0 :(得分:5)
\ xC2 \ xA0是unicode字符0xA0的UTF-8编码,通常写为&amp; nbsp;在html文件中。