我正在建立一个用于存储我的电子书集的数据库
他们中的大多数都在本书的文本中有ISBN
如何访问此内容?
是否有任何源代码或DLL用于执行此操作?
答案 0 :(得分:4)
我是为电子书库应用做的。首先,您需要从chm或pdf文件中提取文本。有很多实用工具\库可以做到这一点。这是关于如何从CHM文件中提取内容的CodeProject上的article。对于PDF文件,我使用了pdftotext实用程序。 当您从eBook中获取纯文本时,使用regular expression解析它以查找ISBN10 / 13代码。
答案 1 :(得分:2)
从CHM和PDF文件中提取文本是第一步。接下来,您可以使用regular expression找到ISBN号。