我有一个PDF,其中某些表行包含特殊字符和字体 for e.g.。有没有办法正确阅读这些。
from tabula import read_pdf
df = read_pdf("Tables PDF.pdf", pages = '5', lattice = True, multiple_tables = True, encoding = 'utf-8-sig')
我尝试了几种类型的编码utf-8
,ascii
,utf-8-sig
,ISO-8859-1
。如果还有其他方法,请告诉我。
还尝试单独读取其中一个值并进行更改,方法是使用:
df1.iloc[3, 6] = df1.iloc[3, 6].encode("utf-8", "replace")
没有成功。任何帮助将不胜感激。