我正在尝试使用ItextSharp 4.2.0(由于有GPL许可证)从某个来源读取pdf,但是我只是从pdf中检索标题文本。
我真的是PDF Structure的新手,但我怀疑这是由于内部的编码流所致: 当我在文本编辑器中打开pdf时,我会看到以下标记:
<</Filter/FlateDecode/I 94/Length 84/S 55>>stream
[Gibberish text]
endstream
endobj
<</Filter/FlateDecode/Length 2592/N 3>>stream
endstream
endobj
我的代码就是这么简单:
PdfReader reader = new PdfReader(tb_filename.Text);
for (int page = 1; page <= reader.NumberOfPages; page++)
{
var content = reader.GetPageContent(page);
//do stuff depending on content
}
我很确定我要检索的数据是实际文本,因为我可以将其从Adobe Reader复制/粘贴到记事本中。
我在这里想念什么?