首页 > 软件下载 > 软件下载

Jcseg(Java中文分词器) v2.6.5

2023-10-25

资源介绍

Jcseg是一款专业实用的轻量级Java中文分词工具,提供关键词提取和文章自动摘要等功能,并且拥有一个基于Jetty的web服务器,方便各大语言直接http调用,同时提供最新版本的lucene,solr和elasticsearch的搜索分词接口。感兴趣的小伙伴们赶快来非凡软件站下载吧!

软件功能

Jcseg核心功能:

中文分词:mmseg算法 + Jcseg 独创的优化算法,七种切分模式。

关键字提取:基于textRank算法。

关键短语提取:基于textRank算法。

关键句子提取:基于textRank算法。

文章自动摘要:基于BM25+textRank算法。

自动词性标注:基于词库+(统计歧义去除计划),目前效果不是很理想,对词性标注结果要求较高的应用不建议使用。

命名实体标注:基于词库+(统计歧义去除计划),电子邮件,网址,大陆手机号码,地名,人名,货币,datetime时间,长度,面积,距离单位等。

Restful api:嵌入jetty提供了一个绝对高性能的server模块,包含全部功能的http接口,标准化json输出格式,方便各种语言客户端直接调用。

Jcseg中文分词:

七种切分模式:

简易模式:FMM算法,适合速度要求场合。

复杂模式:MMSEG四种过滤算法,具有较高的歧义去除,分词准确率达到了98.41%。

检测模式:只返回词库中已有的词条,很适合某些应用场合。

最多模式:细粒度切分,专为检索而生,除了中文处理外(不具备中文的人名,数字识别等智能功能)其他与复杂模式一致(英文,组合词等)。

分隔符模式:按照给定的字符切分词条,默认是空格,特定场合的应用。

NLP模式:继承自复杂模式,更改了数字,单位等词条的组合方式,增加电子邮件,大陆手机号码,网址,人名,地名,货币等以及无限种自定义实体的识别与返回。

n-gram模式:CJK和拉丁系字符的通用n-gram切分实现。

分词功能特性:

支持自定义词库。在lexicon文件夹下,可以随便添加/删除/更改词库和词库内容,并且对词库进行了分类。

支持词库多目录加载. 配置lexicon.path中使用';'隔开多个词库目录.

词库分为简体/繁体/简繁体混合词库: 可以专门适用于简体切分, 繁体切分, 简繁体混合切分, 并且可以利用下面提到的同义词实现,简繁体的相互检索, Jcseg同时提供了词库两个简单的词库管理工具来进行简繁体的转换和词库的合并。

中英文同义词追加/同义词匹配 + 中文词条拼音追加.词库整合了《现代汉语词典》和cc-cedict辞典中的词条,并且依据cc-cedict词典为词条标上了拼音,依据《中华同义词词典》为词条标上了同义词(尚未完成)。更改jcseg.properties配置文档可以在分词的时候加入拼音和同义词到分词结果中。

中文数字和中文分数识别,例如:"一百五十个人都来了,四十分之一的人。"中的"一百五十"和"四十分之一"。并且 Jcseg会自动将其转换为阿拉伯数字加入到分词结果中。如:150, 1/40。

image.png

展开全部

版权声明

1 本站所有资源(含游戏)均是软件作者、开发商投稿,任何涉及商业盈利目的均不得使用,否则产生的一切后果将由您自己承担!

2 本站资源下载后不得用于商业用途,所有资源请在下载后24小时内删除。

3 若有关在线投稿、无法下载等问题,请与本站客服人员联系。

4 如侵犯了您的版权、商标等,请立刻联系我们并具体说明情况后,本站将尽快处理删除,联系QQ:2499894784

最近更新

热门排行

最需网客户端 软件问题一手掌握

去 App Store 免费下载 iOS 客户端