应用错误收集

从PDF转换的配对文本

时间：2015-09-17 23:21:46

标签： python string parsing pdf text

我有一些解析从PDF文件转换的字符串的麻烦，pdftotext.exe使用选项-table来完成。如下所示，转换后的文本包含一些空行，但可以轻松修剪。但是，有时候，它会将一行分成多个部分。例如，“苯磺酸单-C10-16-烷基衍生物，钠盐”用三行处理。有没有办法解决或克服这个问题，如按列扫描文本文件？提前致谢。

伪代码

with open(fname) as f:
    content = f.readlines()

#remove empty lines
Chemicals_new=[line for line in content if line.strip()]
Chemicals_new[0].split("  ") ###need some help here...

转换后的文本文件

的示例

          Chemical Name                    Synonyms                 Trade Secret               CAS-No       Weight %

          Sodium carbonate                        -                      No                    497-19-8                     25 - 30

Silicic acid, aluminum sodium salt                -                      No                    1344-00-9                    15 - 20

         Benzenesulfonic acid,                    -                      No                    68081-81-2                   10 - 15

mono-C10-16-alkyl derivs., sodium

              salts

0 个答案:

没有答案