当尝试从pdf文件中抓取链接时,我弹出一个奇怪的问题。链接在pdf文件中显示为“ http://www.mbc.ca.gov/Licensees/License_Renewal/Physician_Survey.aspx”。但是,结果显示为:
b'http://www.mbc.ca.gov/Licensees/License_Renewal/Physici\xe9C@|\xf2\xefw\x0e\xd3\x8d>X\x0f\xe7\xc6'
在PDFObjRef上执行resolve()方法时。为什么链接中突然出现腐败?几乎看起来像换行符或被解释为字节的东西。另外,如果这显然是人类可读的,为什么甚至是一个字节字符串呢?这是pdfminer的正常行为吗?
尝试使用utf-8解码该字节字符串时,会出现此错误:
UnicodeDecodeError: 'utf-8' codec can't decode byte 0xe9 in position 55: invalid continuation byte
答案 0 :(得分:0)
我认为这是一个行进者。该脚本适用于我遇到过的所有pdf文件,但这一文件除外。因此,除非有人能提出pdfminer将一个奇怪的/损坏的编码(大约40-60个字符编码为一个字节字符串)的原因,否则就是FUBAR。