为什么常识

有哪些比较好的中文分词方案?

生活词典 changshi.cidiancn.com

阅读: 332

有哪些比较好的中文分词方案?18 个答案

答案 1:

中文分词是个基础问题,研究成果已有不少,我拣几个我自己觉得好的吧。>

@张磊提到的mmseg是我自己最喜欢的分词方法,简单、高效、实用、效果还不错。tec-nology.c-tsai.org/mmseg/我给它起了个名字,叫做“3段回溯式方法”,即每次从一个完整的句子里,按照从左向右的顺序,识别出多种不同的3个词的组合;然后根据下面的4条消歧规则,确定最佳的备选词组合;选择备选词组合中的第1个词,作为1次迭代的分词结果;剩余的2个词继续进行下一轮的分词运算。采用这种办法的好处是,为传统的前向最大匹配算法加入了上下文信息,解决了其每次选词只考虑词本身,而忽视上下文相关词的问题。4条消歧规则包括,1)备选词组合的长度之和最大。2)备选词组合的平均词长最大;3)备选词组合的词长变化最小;4)备选词组合中,单字词的出现频率统计值最高。

CRF方法是目前公认的效果最好的分词算法。但,具体效果是否好,也依赖于你使用的训练模型。nlp.stanford.edu/software...

我认识一个做搜索解决方案的朋友,他们公司提供了CRF和mmseg的开源实现coreseek.cn/opensour...

其实还可以使用专业公司的解决方案,比如海量和中科院分词的收费版本,也花不了多少钱。集中精力找到你自己产品独特的价值所在。

分享常识给亲友.

下一篇:很多公司的中高层管理者都不喜欢能够说真话的人? 下一篇 【方向键 ( → )下一篇】

上一篇:大龄未婚剩女如何解决个人问题? 上一篇 【方向键 ( ← )上一篇】