应用错误收集

2006版免费离线中文句子词典Jukuu在.dll文件中包含100,000个公开源代的中英文例句。

应用程序大小约为80mb，但一旦安装，就会使用源文本创建500mb DLL字典文件。无论出于何种原因，应用程序都无法在我的计算机上运行，我想提取所有的例句，以便我可以对它们进行一些POS分析。

打开500mb .DLL文件主要是胡言乱语，除了这里和那里的一些文本片段以及对其他资源的引用。

我想知道是否有任何方法可以用纯文本提取信息？

该应用程序可在此处下载：http://www.jukuu.com/down/download.html

谢谢！

编辑：没关系，看起来在HEX中查看时，文件的排序方式根本不利于句子挖掘：

<00> 00 06 00 02 00 07 03 00 01 00 00 00 FF FE 6E 65 76 65 72 7E 73 74 61 6E 64 20 75 70 0B 00 00 80 00 00 00 00 00 00 00 00 FF FE 33 30 32 32 31 38 32 36 38 2D 00 16 00 06 00 02 00 07 03 00 01 00 00 00 FF FE 65 78 74 72 65 6D 65 6C 79 7E 63 6C 6F 73 65 0B 00 00 80 00 00 00 00 00 00 00

喜欢ÿþnever~站起来ÿþ302218268-ÿþextremely~close

关于如何从应用程序中挖掘句子的任何其他想法？也许是批处理脚本？

Visual C ++，从DLL数据库中提取文本信息（句子挖掘）

0 个答案: