从PDF转换的配对文本

时间:2015-09-17 23:21:46

标签: python string parsing pdf text

我有一些解析从PDF文件转换的字符串的麻烦,pdftotext.exe使用选项-table来完成。如下所示,转换后的文本包含一些空行,但可以轻松修剪。但是,有时候,它会将一行分成多个部分。例如,“苯磺酸单-C10-16-烷基衍生物,钠盐”用三行处理。有没有办法解决或克服这个问题,如按列扫描文本文件?提前致谢。

伪代码

with open(fname) as f:
    content = f.readlines()

#remove empty lines
Chemicals_new=[line for line in content if line.strip()]
Chemicals_new[0].split("  ") ###need some help here...

转换后的文本文件

的示例
          Chemical Name                    Synonyms                 Trade Secret               CAS-No       Weight %

          Sodium carbonate                        -                      No                    497-19-8                     25 - 30

Silicic acid, aluminum sodium salt                -                      No                    1344-00-9                    15 - 20

         Benzenesulfonic acid,                    -                      No                    68081-81-2                   10 - 15

mono-C10-16-alkyl derivs., sodium

              salts

0 个答案:

没有答案