Question

我有一个巨大的文本文件，其中包含大约5000条以这种形式发表的评论：

D123456 \ tPOS / NEG \ n多行文字到此处。 \ n D654321 \ tPOS / NEG \ n多行文字到此处。 \ n

......等等。

我需要逐一提取它们。我发现了这个： Best way to extract specific paragraph from file data，它有点帮助（使用模式，匹配器）。所以我的正则表达式应该是这样的：

d [0-9] {6} \吨（POS | NEG）\ N * \ n

但这不正确。应该怎么样？通过单词：以'D'开头然后是六个数字然后是一个标签，然后是POS或NEG，然后是新行，然后基本上是新行。

Answer 1

这个正则表达式：

(?s)D[0-9]{6}\\t(POS|NEG.*?\n\n

Answer 2

D[0-9]{6}\t(POS|NEG)\n(.*?\n?)*?(?=D[0-9]{6}|$)

我不确定是什么将每个评论分开，所以我将它与“多行文本”匹配为直到下一个D000000数字或文件末尾的任何内容。