从PDF文件中的数据创建ics文件

时间:2013-05-17 03:19:14

标签: pdf icalendar

我正在寻找一种方法将PDF文档转换为多个ics文件,员工可以使用这些文件将他们的两周名单添加到他们桌面上的智能手机日历或Outlook日历中。创建多个文件所需的信息将通过从每列搜索选定的首字母然后引用与首字母相同的行中的数据从PDF中提取。他们是一个特定的订单,我需要将数据显示在ics文件中,以便将其导入智能手机日历吗?

2 个答案:

答案 0 :(得分:0)

您可以搜索pdf API以获取有关使用编程方式处理pdf的更多详细信息。

以下是一些可以提供帮助的在线转换器。他们将pdf转换为单词

http://www.pdftoword.com/success.aspx

http://www.pdfescape.com/account/?expired

然而,从PDF重建结构化数据并非易事,因为程序必须扣除布局中的语义。因此,大多数程序只能从pdf中恢复分散的数据。

答案 1 :(得分:0)

我已经使用PERL和Windows Adob​​e PDF查看器完成此操作,以突出显示PDF中的所有文本并剪切并粘贴到文本文件中。如前面的答案所述,您必须编写PERL(或任何其他文本处理语言)来选择您拥有的PDF格式。然后,您可以使用PERL打印到csv或ical或任何您想要的格式。我在github.com上分享了我的代码。我不确定你是否认识GIT,但如果你想让我在GIT之外发送PERL代码,请给我发私信。

我已转换的PDF文件在这里:

http://recplexonline.com/sports/hockey/old-geezers-hockey-35

我的PERL代码的Git中心和我使用的输入文件在这里:

https://github.com/jdeltoft/PdfParse

这是非常丑陋的perl,对不起。但它的确有效。我很快就会尝试清理它。