我正在解析文本,其中包括过滤掉特殊字符或空格的间隙,以便对字符串进行正确分类。问题是原始字符串的索引映射回其他元数据(图像中OCRd文本的x,y坐标)。一旦关键字被正确分类,我想通过索引(开始和结束)映射回原始的预处理字符串,而不是关键字本身。该位置比关键字更重要,因为关键字不一定是唯一的。
很多代码看起来像是:
filtered_text = re.sub(\s{5,}, '', line)
mobj = re.match(my_pat, filtered_text)
return (mobj.start(0), mobj.end(0))
我想知道是否可以用特殊的" padding / filler"替换为空字符串替换。字符?这个特殊字符将满足两个要求:
(1)占用空间以便:
len(line) == len(filtered_line)
(2)下游模式正则表达式匹配忽略它。
我可以使用任何特殊的unicode字符,还是可以将re模块中的某些字符设置为忽略特定字符?
此外,我无法将替换模式与匹配模式合并,因为代码的不同部分是相互抽象的。上面的例子非常简单 - 实际的两个独立的代码部分非常复杂。
答案 0 :(得分:0)
在更换空白区域时,需要保持从变换后的位置到原始位置的映射。
def sub_with_mapping(pattern, repl, string):
mapping = dict()
source_index = [0]
target_index = [0]
target = []
#
def append_segment(original_len, text, keep_positions):
for i in range(0, len(text)):
mapping[target_index[0] + i] = source_index[0] + (i if keep_positions else 0)
target.append(text)
target_index[0] += len(text)
source_index[0] += original_len
#
for match in re.finditer(pattern, string):
# Append text between previous and this match
prefix = string[source_index[0]:match.start()]
append_segment(len(prefix), prefix, True)
# Append replacement text
replacement = repl
if callable(replacement):
replacement = replacement(match)
append_segment(len(match.group(0)), replacement, False)
# Append text after last match
suffix = string[source_index[0]:]
append_segment(len(suffix), suffix, True)
return ''.join(target), mapping
>>> sub_with_mapping(r'\w+', 'x', 'foo --- bar --- baz')
('x --- x --- x', {0: 0, 1: 3, 2: 4, 3: 5, 4: 6, 5: 7, 6: 8, 7: 11, 8: 12, 9: 13, 10: 14, 11: 15, 12: 16})
然后,您可以对返回的字符串进行匹配,并将索引映射回原始字符串。
请注意,如果您的替换长度超过一个字符,您可能会将多个索引映射回相同的原始索引。
如果你的字符串非常长(> 1 MB?),你可能想要优化数据结构。也许你可以使用范围?