从PDF文档中提取字空间

时间:2018-04-22 11:11:30

标签: python pdf

我正在使用word-space shift方法在​​PDF文档中分配检测隐藏消息。为了做到这一点,我需要一个python包,可以帮助我获得任何单词之间的确切空间值,但我还没有找到任何包。有人知道任何包可以做到吗?谢谢。例:     输入: This_is__a_simple_sentence_with__no_meaning"     输出: [1,2,1,1,1,2,1]

对于视觉视图,我假设每个下划线呈现一个空格,每个空格等于1.正如您所看到的,每个单词之间的空格总数不相等,有些空格之间有多个空格。我在这里尝试存档的是输出数组内容,只输出每个单词之间空格的总值。

1 个答案:

答案 0 :(得分:0)

此功能可以满足您的需求:

def count_spaces(s):
    l = []
    current = None
    for c in s:
        if c ==" ":
            if current is not None:
                current+=1
            else:
                current = 1
        else:
            if current is not None:
                l.append(current)
                current = None
    return l