2006版免费离线中文句子词典Jukuu在.dll文件中包含100,000个公开源代的中英文例句。
应用程序大小约为80mb,但一旦安装,就会使用源文本创建500mb DLL字典文件。无论出于何种原因,应用程序都无法在我的计算机上运行,我想提取所有的例句,以便我可以对它们进行一些POS分析。
打开500mb .DLL文件主要是胡言乱语,除了这里和那里的一些文本片段以及对其他资源的引用。
我想知道是否有任何方法可以用纯文本提取信息?
该应用程序可在此处下载:http://www.jukuu.com/down/download.html
谢谢!
编辑:没关系,看起来在HEX中查看时,文件的排序方式根本不利于句子挖掘:
<00> 00 06 00 02 00 07 03 00 01 00 00 00 FF FE 6E 65 76 65 72 7E 73 74 61 6E 64 20 75 70 0B 00 00 80 00 00 00 00 00 00 00 00 FF FE 33 30 32 32 31 38 32 36 38 2D 00 16 00 06 00 02 00 07 03 00 01 00 00 00 FF FE 65 78 74 72 65 6D 65 6C 79 7E 63 6C 6F 73 65 0B 00 00 80 00 00 00 00 00 00 00
喜欢ÿþnever~站起来ÿþ302218268-ÿþextremely~close
关于如何从应用程序中挖掘句子的任何其他想法?也许是批处理脚本?