Question

当尝试从pdf文件中抓取链接时，我弹出一个奇怪的问题。链接在pdf文件中显示为“ http://www.mbc.ca.gov/Licensees/License_Renewal/Physician_Survey.aspx”。但是，结果显示为：

b'http://www.mbc.ca.gov/Licensees/License_Renewal/Physici\xe9C@|\xf2\xefw\x0e\xd3\x8d>X\x0f\xe7\xc6'

在PDFObjRef上执行resolve（）方法时。为什么链接中突然出现腐败？几乎看起来像换行符或被解释为字节的东西。另外，如果这显然是人类可读的，为什么甚至是一个字节字符串呢？这是pdfminer的正常行为吗？

尝试使用utf-8解码该字节字符串时，会出现此错误：

UnicodeDecodeError: 'utf-8' codec can't decode byte 0xe9 in position 55: invalid continuation byte

Answer 1

我认为这是一个行进者。该脚本适用于我遇到过的所有pdf文件，但这一文件除外。因此，除非有人能提出pdfminer将一个奇怪的/损坏的编码（大约40-60个字符编码为一个字节字符串）的原因，否则就是FUBAR。