你的位置:首页 > 软件开发 > Java > 在Solr中配置和使用ansj分词

在Solr中配置和使用ansj分词

发布时间:2015-05-06 12:00:44
在上一节【编译Ansj之Solr插件】中介绍如何编译ansj分词在solr(lucene)环境中使用的接口,本章将介绍如何在solr中使用ansj,其步骤主要包括:下载或者编译ansj和nlp-lang等jar包、在schema中配置相关类型、将ansj和nlp-lang等jar ...

  在上一节【编译Ansj之Solr插件】中介绍如何编译ansj分词在solr(lucene)环境中使用的接口,本章将介绍如何在solr中使用ansj,其步骤主要包括:下载或者编译ansj和nlp-lang等jar包、在schema中配置相关类型、将ansj和nlp-lang等jar包配置到solr中、测试ansj分词效果。

一、下载或者编译ansj-seg和nlp-lang等jar包。

   1、您可以到 http://maven.ansj.org/org/ansj/ansj_seg/  | http://maven.ansj.org/org/nlpcn/ 中下载相关jar包。

    ansj-seg相关jar包,如下图所示:

    在Solr中配置和使用ansj分词

          在Solr中配置和使用ansj分词

        nlp-lang 是ansj-seg分词中关于自然语言处理相关工具类,功能比较强大:

   在Solr中配置和使用ansj分词

        在Solr中配置和使用ansj分词

  2、下载相关源码,自己编译。

    这种是相对复杂的,但是如果长久使用,这种是很有必要的。对于这种优秀的分词,我们更有必要好好研究一番。

    github地址:https://github.com/NLPchina/ansj_seg 

    git客户端地址:http://git-scm.com/download/

           git下载源码命令:git clone  https://github.com/NLPchina/ansj_seg.git

    下载后的文件结构如下:

   在Solr中配置和使用ansj分词

   可见代码是用maven组中管理的。对于maven的安装配置本文旧粗略带过,主要包括:

    下载maven相关包,解压:

     在Solr中配置和使用ansj分词

   配置环境变量M2_HOME:C:\apache-maven-3.2.1

   配置PATHb环境变量:%M2_HOME%\bin;

   mvn常有命令:mvn clean install#清理本地缓存、下载依赖jar包 可以添加-DskipTests=true忽略单元测试;mvn eclipse:clean #清理mvn生成的eclipse工程;mvn eclipse:eclipse #根据pom.

   步骤:

     在源码根路径下执行: mvn clean install -DskipTests=true  命令,在target目录下生成jar包。

    在Solr中配置和使用ansj分词

    target目录:

    在Solr中配置和使用ansj分词

   同义的道理,可以编译nlp-lang jar包,地址:https://github.com/NLPchina/nlp-lang   

二、在solr schema.

  1、创建ansj类型。

    找到schema.

	<!--ansj start -->	<fieldType name="text_ansj" positionIncrementGap="100">  <analyzer type="index">     <tokenizer  isQuery="false"/>  </analyzer>  <analyzer type="query">    <tokenizer />  </analyzer></fieldType>	<!--ansj end -->

原标题:在Solr中配置和使用ansj分词

关键词:

*特别声明:以上内容来自于网络收集,著作权属原作者所有,如有侵权,请联系我们: admin#shaoqun.com (#换成@)。

可能感兴趣文章

我的浏览记录