Question

我正在尝试用Python阅读PDF。 Here是PDF的链接。

当我使用石板时，第一行就像r：_H_o_st_in_g_S_e_rv_ic_es_ln，但它必须像＆＃34;托管服务墨水＆＃34;。可以通过编程方式修复吗？

以下是我如何做到这一点：

zsh: no matches found: refs/notes/*:refs/notes/*

Answer 1

您可以使用以下代码实现所需目的：

import re

s = '_H_o_st_in_g_S_e_rv_ic_es_In_c'
s = s.strip('_')
res = s[0]

for c in s.split('_')[1:]:
    if c:
        if re.match('[A-Z]', c):
            res = res + ' ' + c
        else:
            res = res + c

<强>输出：

>>> res
'Hosting Services Inc'

Answer 2

也许不是，或者至少不完美。您可以使用输入字符串_H_o_st_in_g_S_e_rv_ic_es_ln，删除所有下划线并相当容易地在大写字母前放置空格。但看起来您收到的文字不一定是正确的文字，这可能会影响您的输出。

def add_space(st):
    out = []
    for ch in st:
       if ch.isupper():
           out.append(' ')
       out.append(ch)
    return ''.join(out)

print(add_space('_H_o_st_in_g_S_e_rv_ic_es_ln'.replace('_', '')))

输出

Hosting Servicesln

因为您的字符识别软件会将Inc视为ln

如何用Python解析PDF？

2 个答案: