标签: c#
我正在开发应用程序,我需要从pdf中识别段落 我需要提取文本并确定段落 有没有办法使用c#从pdf文档中提取文本并识别提取文本的段落和/或页面边界?
答案 0 :(得分:1)
PDF是二进制格式,请尝试使用其中一种来读取它: http://www.pdflib.com/ http://sourceforge.net/projects/itextsharp/
一旦你有了流,你应该能够检查到 换行符/返回(\ n / \ r)或制表符\ t以查找新段落。