PythonTip >> 博文 >> 杂项其他

纯 python 分词库:python-segment 提供可用、完善的分词系统和训练环境

zihua 2013-09-26 01:09:26 点击: 1097 | 收藏


项目地址

http://code.google.com/p/python-segment/

作者:shell909090(#)gmail.com

博客:Shell's Home

简介

python-segment是一个纯python实现的分词库,他的目标是提供一个可用的,完善的分词系统和训练环境,包括一个可用的词典。

原理

python-segment的词典是带词频无词性词典,程序基于剪枝和词频概率工作,不考虑词性,不考虑马尔可夫链。词典含两部分内容,单字词频和词组词频。两者的统计和使用是分离的。词典一般有两种形态,marshal格式和txt格式。

性能说明

在一台虚拟机上测试的结果,载入词典后消耗内存(带python)大约60m,分词效率大约100k字/秒。注意,默认情况下,程序使用yield返回分词结果,这不会消耗太多内存。但是如果需要保留分词得到的每个词语碎片,将耗费大量内存。根据测试,一个10M的文本文件(大约500W字)需要120m以上的内存来保持词语碎片。

原文链接:http://www.simple-is-better.com/news/777

作者:zihua | 分类: 杂项其他 | 标签: 中文分词 python-segment | 阅读: 1097 | 发布于: 2013-09-26 01时 |