Metadata-Version: 2.0
Name: MicroTokenizer
Version: 0.20.3
Summary: A micro tokenizer for Chinese
Home-page: https://github.com/howl-anderson/MicroTokenizer
Author: Xiaoquan Kong
Author-email: u1mail2me@gmail.com
License: MIT license
Keywords: MicroTokenizer
Platform: UNKNOWN
Classifier: Development Status :: 2 - Pre-Alpha
Classifier: Intended Audience :: Developers
Classifier: License :: OSI Approved :: MIT License
Classifier: Natural Language :: English
Classifier: Programming Language :: Python :: 2
Classifier: Programming Language :: Python :: 2.7
Classifier: Programming Language :: Python :: 3
Classifier: Programming Language :: Python :: 3.5
Classifier: Programming Language :: Python :: 3.6
Requires-Dist: Click
Requires-Dist: networkx
Requires-Dist: tqdm
Requires-Dist: matplotlib
Requires-Dist: MicroHMM
Requires-Dist: plac
Requires-Dist: requests
Requires-Dist: regex
Requires-Dist: ujson
Requires-Dist: python-crfsuite
Requires-Dist: tokenizer-tools
Requires-Dist: numpy
Requires-Dist: joblib
Requires-Dist: pyyaml
Requires-Dist: pathlib; python_version < "3.4"
Requires-Dist: typing; python_version < "3.5"


微型中文分词器
==============

一个微型的中文分词器，目前提供了七种分词算法:


#. 按照词语的频率（概率）来利用构建 DAG（有向无环图）来分词，使用 ``Trie Tree`` 构建前缀字典树
#. 使用隐马尔可夫模型（Hidden Markov Model，HMM）来分词
#. 融合 DAG 和 HMM 两种分词模型的结果，按照分词粒度最大化的原则进行融合得到的模型
#. 正向最大匹配法
#. 反向最大匹配法
#. 双向最大匹配法
#. 基于 CRF (Conditional Random Field, 条件随机场) 的分词方法

特点 / 特色
===========


* 面向教育：可以导出 ``graphml`` 格式的图结构文件，辅助学习者理解算法过程
* 良好的分词性能：由于使用类似 ``结巴分词`` 的算法，具有良好的分词性能
* 具有良好的扩展性：使用和 ``结巴分词`` 一样的字典文件，可以轻松添加自定义字典
* 自定义能力强
* 提供工具和脚本帮助用户训练自己的分词模型而不是使用内建的模型

----

更多内容见仓库 https://github.com/howl-anderson/MicroTokenizer


