Question

我有以下描述我想要使用我的程序废料。

<hr>为AFROTC学员提供多达13种选择，以进行实际领导和专业培训通过接触美国空军的职能，部署和就业活动。外语和文化沉浸也可用/可能，但总体重点仍然是领导力发展和实践。所有项目都在选定的空军基地以及美国和国外的其他地点进行。<br>

我有以下代码：

findDescription = re.findall('<hr>(.*?)(?:<strong>|<br>)', coursePage)

我得到以下输出：

['通过接触美国空军的职能，部署和就业运营，为AFROTC学员提供多达13种实用领导和专业培训选项。\ xc2 \ xa0外语和文化沉浸也可用/可能但总体重点仍然是领导力发展和实习。\ xc2 \ xa0所有节目都在选定的空军基地以及美国和国外的其他地点进行。']

为什么我会在这里找到像\xc2\xa0这样奇怪的东西？我的代码也会被引号"绊倒。坦率地说，我相信我的正则表达式代码中的句点.应该接受所有字符串。出了什么问题？

我很欣赏任何快速提示。我星期五只听说过正则表达式而且我已经取得了巨大的进步，但是这个让我真的绊了几个小时。

温馨的问候， GeekyOmega

Answer 1

\ xC2 \ xA0是unicode字符0xA0的UTF-8编码，通常写为＆amp; nbsp;在html文件中。