正如问题所述,我正在为中文寻找一个免费和/或开源的文本分割算法,我确实理解这是一项非常困难的任务,因为有许多含糊不清的问题。我知道有谷歌的API,但它确实是一个黑盒子,即没有太多关于它正在做什么的信息正在通过。
答案 0 :(得分:30)
关键字text-segmentation for Chinese
应为中文中文分词
。
良好且活跃的开源文本分割算法:
C#
,Snapshot
Java
C/C++, Java, C#
,Demo
C, PHP, PostgreSQL
ICTCLAS
,Demo
Java
Java
,Demo
Python, Java
,Demo
python
其他
<强>示例强>
Google Chrome (Chromium) :src
,cc_cedict.txt (73,145 Chinese words/pharases)
在谷歌浏览器的text field
或textarea
中有中文句子,请按
Ctrl + ←或 Ctrl + →
Double click
中文分词指的是将一个汉字序列切分成一个一个单独的词
答案 1 :(得分:8)
答案 2 :(得分:1)
ICU详细介绍了通用文字细分 - http://userguide.icu-project.org/boundaryanalysis
答案 3 :(得分:0)
Cursory谷歌搜索“文本分割中文开源”揭示了这个图书馆,可能是也可能不是你想要的......:
http://sourceforge.net/projects/ktdictseg/
结果暗示了几个替代场所也在寻找一个开源库: