处理正则表达式

时间:2015-07-29 15:26:36

标签: python regex

我是Regex世界的新手。我正在尝试实现正则表达式任务:

我的博客中有一个字符串,如下所示。

"I am studying Artificial
 Intelligence"

注意:Intelligent位于下一行

例如,数据如下:

b_or_i="<div class="MsoNormal"">\n<span style="font-family:">Machine learning however, is a sub-field of Artificial\nIntelligence, probably the biggest field under it.</span></div>"

我写了一个表达式来删除&lt;&gt;中包含的所有数据如下:

refine=[check for check in re.split("\s*<[^<]*>\s*", b_or_i, re.DOTALL) if check]

运行上面的代码后,我的输出如下:

['Machine learning however, is a sub-field of Artificial\nIntelligence, probably the biggest field under it.']

说过我正在尝试收集属于同一实体或组的单词组合。例如,人工智能属于同一个实体,因此我需要它们。然而,&#34; \ n&#34;他们之间的生活很艰难。

我写的将单个实体放在一起的表达式如下:

find_entities=re.findall(r'\b[A-Z]\B\w*(?:\s+\b[A-Z]\B\w*)*', words, re.DOTALL)

以上代码在获取诸如非结构化数据集等字样方面做得非常出色。或者&#34;人工智能&#34;但对于#34;人工\ n智能&#34;并没有好处。

我想到的一个解决方案是替换&#34; \ n&#34;有空间,但我不知道它将如何影响我的整个文件

感谢任何帮助,谢谢:)

0 个答案:

没有答案