使用c#从pdf文档中识别提取文本的段落和/或页面边界

时间:2015-03-25 04:54:16

标签: c#

我正在开发应用程序,我需要从pdf中识别段落 我需要提取文本并确定段落 有没有办法使用c#从pdf文档中提取文本并识别提取文本的段落和/或页面边界?

1 个答案:

答案 0 :(得分:1)

PDF是二进制格式,请尝试使用其中一种来读取它:
http://www.pdflib.com/
http://sourceforge.net/projects/itextsharp/

一旦你有了流,你应该能够检查到  换行符/返回(\ n / \ r)或制表符\ t以查找新段落。