发现很久很久没更新了,尤其是这个模块,也就好久没进步了!学习如逆水行舟,不进则退!趁着还没到白首之际,应该多学习。
1、到http://code.google.com/p/paoding/downloads/list下载paoding-analysis-2.0.4-alpha2.zip
2、然后解压缩,找到dic文件夹,复制到你想存放的文件夹下
3、配置环境变量,如果不配置,运行会报错,报错的中文信息也是需要进行配置环境变量
4、删除.compiled文件
5、新建一个文本文件,后缀名问.dic,采用utf-8保存到dic的文件目录中,这里保存在了E:\paodingTest\dic\locale中
6、下面我们写个分词测试程序
7、自定义词库的情况下分词结果,首先看到的是词库的编译信息
8、带自定义词库的分词结果
9、删除自定义词库和.compiled文件,重新分词
10、放在一起比较,效果还是有的
11、假设我们在分词的时候,需要把运、动分开,默认情况下是不分开的
12、在词库中增加两个词运和动
13、当然,如果想把这个分词器用得更好,还需要深入去了解和思考该分词方法,比如,“我是运动员”,虽然我们在自定义词库中填加了词“运动员”,但是依旧没有切分成“我”,“是”,“运动员”,反而出现了不相关的”动员“这个词语。而需要同时将”运动“切分为“运”,“动“,”运动“,那也是需要好好思考用法,当然这也和中国汉语的特殊性有关,例如:“乒乓球拍卖完了”,在没有上下文的情况下本身就存在歧义。
- 浏览: 52122 次
- 性别:
- 来自: 南京
相关推荐
庖丁解牛分词之自定义词库、庖丁解牛配置,java搜索分词
由于庖丁官方目前提供可下载尚不支持Lucene 3.0以上版本。因此作者对paoding进行重新编译,使其与最新Lucene 3.0.1版本适用。 Latest paoding 3.0.1 for lucene 3.0.1 使用说明: 先下载2.0.4的版本(h t t p : / ...
庖丁解牛分词器源码,包含源码与对应项目,可以用eclipse打开编译
庖丁解牛分词 java包庖丁解牛分词 java包庖丁解牛分词 java包庖丁解牛分词 java包庖丁解牛分词 java包庖丁解牛分词 java包庖丁解牛分词 java包
支持中文的庖丁解牛,庖丁分词,找了好久才找到的希望对你有帮助。
Linux驱动开发庖丁解牛系类 Linux驱动开发庖丁解牛系类 Linux驱动开发庖丁解牛系类 Linux驱动开发庖丁解牛系类 Linux驱动开发庖丁解牛系类
Paoding's Knives 中文分词具有极 高效率 和 高扩展性 。引入隐喻,采用完全的面向对象设计,构思先进。 高效率:在PIII 1G内存个人机器上,1秒 可准确分词 100万 汉字。 采用基于 不限制个数 的词典文件对文章...
可以适用于lucene3.5的庖丁解牛分词器jar包
庖丁解牛分词时需要的高亮显示jar包,高亮显示需要的jar包
庖丁解牛(很好的分词效率) 在做站内全文检索时创建索引时比较快,而且感觉效果比JE要好一些。。
【民生商社】“庖丁解牛”拆析招股书:名创优品.pdf【民生商社】“庖丁解牛”拆析招股书:名创优品.pdf【民生商社】“庖丁解牛”拆析招股书:名创优品.pdf【民生商社】“庖丁解牛”拆析招股书:名创优品.pdf【民生...
庖丁解牛中文分词器,可以完美整合,只要配置好字典的路径,就可以使用庖丁解牛,可以有效针对中文进行分词,而且可以自定义词典。
支持lucene3的庖丁解牛分词器和字典,可直接调用
经典的庖丁解牛通达信主图指标通达信指标公式源码.doc
庖丁解牛—纵向切入ASP.NET3.5控件和组件开发技术 pdf,word
中文分词 庖丁解牛 2_0_0版本发布 - 企业应用 中文分词 庖丁解牛 2_0_0版本发布 - 企业应用
庖丁解牛,Lucene分词器,很难得的资源。
庖丁解牛详细demo
庖丁解牛之OracleOMShipping集成开发.pdf
Version 2.0.4–alpha2 通过 analyzer.bat 程序,可以输入中文文本,即时地查看分词效果。 Jar包在lib 文件夹中。 本人倡导零分资源共享,欢迎大家下载和评论。