如何在CHM或PDF文件上阅读电子书中的ISBN

时间:2009-01-02 10:48:45

标签: c# .net vb.net pdf chm

我正在建立一个用于存储我的电子书集的数据库 他们中的大多数都在本书的文本中有ISBN 如何访问此内容?
是否有任何源代码或DLL用于执行此操作?

2 个答案:

答案 0 :(得分:4)

我是为电子书库应用做的。首先,您需要从chm或pdf文件中提取文本。有很多实用工具\库可以做到这一点。这是关于如何从CHM文件中提取内容的CodeProject上的article。对于PDF文件,我使用了pdftotext实用程序。 当您从eBook中获取纯文本时,使用regular expression解析它以查找ISBN10 / 13代码。

答案 1 :(得分:2)

CHMPDF文件中提取文本是第一步。接下来,您可以使用regular expression找到ISBN号。