我有一些解析从PDF文件转换的字符串的麻烦,pdftotext.exe
使用选项-table
来完成。如下所示,转换后的文本包含一些空行,但可以轻松修剪。但是,有时候,它会将一行分成多个部分。例如,“苯磺酸单-C10-16-烷基衍生物,钠盐”用三行处理。有没有办法解决或克服这个问题,如按列扫描文本文件?提前致谢。
with open(fname) as f:
content = f.readlines()
#remove empty lines
Chemicals_new=[line for line in content if line.strip()]
Chemicals_new[0].split(" ") ###need some help here...
Chemical Name Synonyms Trade Secret CAS-No Weight %
Sodium carbonate - No 497-19-8 25 - 30
Silicic acid, aluminum sodium salt - No 1344-00-9 15 - 20
Benzenesulfonic acid, - No 68081-81-2 10 - 15
mono-C10-16-alkyl derivs., sodium
salts