我对Regex只有一些基本的了解。我的目的是捕获word文档中的每个单词,为此我设计了这个正则表达式。我的word文档由数字写成Rs.1,00,000 / - 并且它还包含写为57.58的小数。它还包含对像F.No.245 / 12-445 / 235这样的文件的引用,这些文件没有用空格分隔。
以下正则表达式几乎成功
(Rs\.)?((\d{1,2}[\,])?)+(\d{3}\/\-)|([']?[\(]?[A-Za-z0-9][']?[-]?[?]?[!]?[:]?[-]?[.]?[/]?[\.]?[\(]?[\)]?[\(]?[\)]?[\/]?)+
为了捕获单词,我将它从word文档中剪切并粘贴到一个文本文件中,然后由C#程序读取。我的问题是我从不想要出现在单词结尾的句点或点。如果结束词后跟感叹号或问号,那就没关系了。当我测试它时,它从文本文件中捕获了13150个单词,而单词文档显示有13,158个单词。
答案 0 :(得分:0)
您需要非空白字符,后跟空格或“F.No。”:
\S*?(?=\s|(F\.No\.))