怎么读表?

时间:2018-06-03 13:03:55

标签: c# pdf itext pdf-conversion

我在PDF文件中有一个时间表。

            (1)     (2)     (3)
            09:00   10:30   11:30            
Monday      12C     11B     10A
Tuesday     10K     10K     9A
Wednesday           7A
Thursday    7B      7B
Friday      6A              11B

我正在使用iTextSharp阅读所有文字。

    private static string ReadFile(string path)
    {
        using (var reader = new PdfReader(path))
        {
            var text = new StringBuilder();

            for (var i = 1; i <= reader.NumberOfPages; i++)
                text.Append(PdfTextExtractor.GetTextFromPage(reader, i));

            return text.ToString();
        }
    }

此文本响应行如下:

(1) (2) (3) 
09:00 10:30 11:30
12C 11B 10A
Monday
10K 10K 9A
Tuesday
7A
Wednesday
B 7B
Thursday
6A  11B
Friday

所以我无法理解哪个课程在哪个时间?例如星期三有一个7A级,但哪个时间(09:00或10:30或11:30)? 如果它写了一个白色空间字符(&amp; nbsp),我可以理解。

(1) (2) (3) 
09:00 10:30 11:30
12C 11B 10A
Monday
10K 10K 9A
Tuesday
&nbsp 7A &nbsp
Wednesday
B 7B &nbsp
Thursday
6A &nbsp 11B
Friday

这可以使用iTextSharp吗?

1 个答案:

答案 0 :(得分:1)

在一般情况下,这是不可能的。

如果您的PDF文档未标记,则文档本身不包含结构信息。或者简单地说,文档不知道哪些部分是表格,表格行,甚至段落。

从未标记的PDF文档中提取结构信息很难。如果不是说在一般情况下不可能。

使用pdf2Data,您可以实现此目的。需要注意的是,您必须预先定义模板。因此,您需要告诉软件它可以在哪里找到一张桌子。

您可以查看var RegisteredSuccess = function() { ... } 中的SimpleTextExtractionStrategy。 它实质上处理所有渲染信息,并决定何时将文本连接到现有缓冲区。

在代码中的某个时刻,它决定如果缓冲区已经以空格结尾,则不应再追加空格。

我建议您创建自己的iText实现,它会覆盖此行为并始终插入空格。