THULAC:一个高效的中文词法分析工具包

所属分类:站点导航
THULAC(THU Lexical Analyzer for Chinese)由清华大学自然语言处理与社会人文计算实验室研制推出的一套中文词法分析工具包,具有中文分词和词性标注功能。

  THULAC(THU Lexical Analyzer for Chinese)由清华大学自然语言处理与社会人文计算实验室研制推出的一套中文词法分析工具包,具有中文分词和词性标注功能。THULAC具有如下几个特点:

  能力强。利用我们集成的目前世界上规模最大的人工分词和词性标注中文语料库(约含5800万字)训练而成,模型标注能力强大。

  准确率高。该工具包在标准数据集Chinese Treebank(CTB5)上分词的F1值可达97.3%,词性标注的F1值可达到92.9%,与该数据集上最好方法效果相当。

  速度较快。同时进行分词和词性标注速度为300KB/s,每秒可处理约15万字。只进行分词速度可达到1.3MB/s。

THULAC:一个高效的中文词法分析工具包

词性解释

  n/名词 np/人名 ns/地名 ni/机构名 nz/其它专名

  m/数词 q/量词 mq/数量词 t/时间词 f/方位词 s/处所词

  v/动词 vm/能愿动词 vd/趋向动词 a/形容词 d/副词

  h/前接成分 k/后接成分 i/习语 j/简称

  r/代词 c/连词 p/介词 u/助词 y/语气助词

  e/叹词 o/拟声词 g/语素 w/标点 x/其它

相关站点