增强我的RegEx进行校对

时间:2014-11-24 01:37:12

标签: c# regex

我在这里有我的RegEx C#

(".*?"|“.*?”|“.*'|'*.")

我也在尝试这种模式

("|'|“).*?("|'|”)

但它没有给出我想要的结果

这是示例段落
“Lorem”Ipsum只是印刷和排版行业的虚拟文本。自16世纪以来,“Lorem Ipsum”一直是业界标准的虚拟文本,当时一台未知的打印机采用了类型的厨房并将其拼凑成一本类型的样本。它不仅存活了“五个世纪”,而且还延续了电子排版,基本保持不变。它在20世纪60年代推出了包含Lorem Ipsum段落的Letraset表格,最近发布了“桌面出版”软件,如“Aldus”“PageMaker”,包括Lorem Ipsum版本。

我的目标是获取这些字符中的所有单词

"", “”, “', '", ''

之所以这样,是因为写一篇文章的人得到了一个错字,而不是用双引号关闭双引号,文章作者用单引号关闭它。

现在,我得到的就是这个 enter image description here

我的预期输出是

Lorem, Lorem Ipsum, five centuries, desktop publishing, Aldus, PageMaker

但不限于此,因为此RegEx将在整篇文章和数百篇文章中运行。

这一行来自上面的示例paragarphy可能是最棘手的部分 自16世纪以来,行业标准的虚拟文本,当时一个未知的打印机拿了一个类型的厨房并乱扰它制作一个类型的标本书。它不仅存活了“五个世纪”,而且

1 个答案:

答案 0 :(得分:1)

(?:"|'(?!s\b|\s)|“)[^"'“”]+(?:"|'(?!s\b)|”)

试试这个。看看演示。

http://regex101.com/r/yP3iB0/13