如何用Python解析PDF?

时间:2016-11-29 15:53:39

标签: python parsing pdf

我正在尝试用Python阅读PDF。 Here是PDF的链接。

当我使用石板时,第一行就像r:_H_o_st_in_g_S_e_rv_ic_es_ln,但它必须像"托管服务墨水"。可以通过编程方式修复吗?

以下是我如何做到这一点:

zsh: no matches found: refs/notes/*:refs/notes/*

2 个答案:

答案 0 :(得分:1)

您可以使用以下代码实现所需目的:

import re

s = '_H_o_st_in_g_S_e_rv_ic_es_In_c'
s = s.strip('_')
res = s[0]

for c in s.split('_')[1:]:
    if c:
        if re.match('[A-Z]', c):
            res = res + ' ' + c
        else:
            res = res + c

<强>输出:

>>> res
'Hosting Services Inc'

答案 1 :(得分:0)

也许不是,或者至少不完美。您可以使用输入字符串_H_o_st_in_g_S_e_rv_ic_es_ln,删除所有下划线并相当容易地在大写字母前放置空格。但看起来您收到的文字不一定是正确的文字,这可能会影响您的输出。

def add_space(st):
    out = []
    for ch in st:
       if ch.isupper():
           out.append(' ')
       out.append(ch)
    return ''.join(out)

print(add_space('_H_o_st_in_g_S_e_rv_ic_es_ln'.replace('_', '')))

输出

Hosting Servicesln

因为您的字符识别软件会将Inc视为ln