我正在尝试用Python阅读PDF。 Here是PDF的链接。
当我使用石板时,第一行就像r:_H_o_st_in_g_S_e_rv_ic_es_ln,但它必须像"托管服务墨水"。可以通过编程方式修复吗?
以下是我如何做到这一点:
zsh: no matches found: refs/notes/*:refs/notes/*
答案 0 :(得分:1)
您可以使用以下代码实现所需目的:
import re
s = '_H_o_st_in_g_S_e_rv_ic_es_In_c'
s = s.strip('_')
res = s[0]
for c in s.split('_')[1:]:
if c:
if re.match('[A-Z]', c):
res = res + ' ' + c
else:
res = res + c
<强>输出:强>
>>> res
'Hosting Services Inc'
答案 1 :(得分:0)
也许不是,或者至少不完美。您可以使用输入字符串_H_o_st_in_g_S_e_rv_ic_es_ln
,删除所有下划线并相当容易地在大写字母前放置空格。但看起来您收到的文字不一定是正确的文字,这可能会影响您的输出。
def add_space(st):
out = []
for ch in st:
if ch.isupper():
out.append(' ')
out.append(ch)
return ''.join(out)
print(add_space('_H_o_st_in_g_S_e_rv_ic_es_ln'.replace('_', '')))
输出
Hosting Servicesln
因为您的字符识别软件会将Inc
视为ln