Question

我是Regex世界的新手。我正在尝试实现正则表达式任务：

我的博客中有一个字符串，如下所示。

"I am studying Artificial
 Intelligence"

注意：Intelligent位于下一行

例如，数据如下：

b_or_i="<div class="MsoNormal"">\n<span style="font-family:">Machine learning however, is a sub-field of Artificial\nIntelligence, probably the biggest field under it.</span></div>"

我写了一个表达式来删除＆lt;＆gt;中包含的所有数据如下：

refine=[check for check in re.split("\s*<[^<]*>\s*", b_or_i, re.DOTALL) if check]

运行上面的代码后，我的输出如下：

['Machine learning however, is a sub-field of Artificial\nIntelligence, probably the biggest field under it.']

说过我正在尝试收集属于同一实体或组的单词组合。例如，人工智能属于同一个实体，因此我需要它们。然而，＆＃34; \ n＆＃34;他们之间的生活很艰难。

我写的将单个实体放在一起的表达式如下：

find_entities=re.findall(r'\b[A-Z]\B\w*(?:\s+\b[A-Z]\B\w*)*', words, re.DOTALL)

以上代码在获取诸如非结构化数据集等字样方面做得非常出色。或者＆＃34;人工智能＆＃34;但对于＃34;人工\ n智能＆＃34;并没有好处。

我想到的一个解决方案是替换＆＃34; \ n＆＃34;有空间，但我不知道它将如何影响我的整个文件

感谢任何帮助，谢谢：）

处理正则表达式

0 个答案: