Visual C ++,从DLL数据库中提取文本信息(句子挖掘)

时间:2015-03-16 11:44:51

标签: c visual-c++ encryption dll decompiler

2006版免费离线中文句子词典Jukuu在.dll文件中包含100,000个公开源代的中英文例句。

应用程序大小约为80mb,但一旦安装,就会使用源文本创建500mb DLL字典文件。无论出于何种原因,应用程序都无法在我的计算机上运行,​​我想提取所有的例句,以便我可以对它们进行一些POS分析。

打开500mb .DLL文件主要是胡言乱语,除了这里和那里的一些文本片段以及对其他资源的引用。

我想知道是否有任何方法可以用纯文本提取信息?

该应用程序可在此处下载:http://www.jukuu.com/down/download.html

谢谢!

编辑:没关系,看起来在HEX中查看时,文件的排序方式根本不利于句子挖掘:

  <00> 00 06 00 02 00 07 03 00 01 00 00 00 FF FE 6E 65 76 65 72 7E 73 74 61   6E 64 20 75 70 0B 00 00 80 00 00 00 00 00 00 00 00 FF FE 33 30 32   32 31 38 32 36 38 2D 00 16 00 06 00 02 00 07 03 00 01 00 00 00 FF   FE 65 78 74 72 65 6D 65 6C 79 7E 63 6C 6F 73 65 0B 00 00 80 00 00   00 00 00 00 00

喜欢ÿþnever~站起来ÿþ302218268-ÿþextremely~close

关于如何从应用程序中挖掘句子的任何其他想法?也许是批处理脚本?

0 个答案:

没有答案