如何在 Solr 中啟用 Tika

如何在 Solr 中啟用 Tika

在 solr 4.6.0 中已經內建 Tika 了, 所以只要把他啟用即可。
開啟 solrconfig.xml
 
找到
<requestHandler name="/update/extract" 
                  startup="lazy"
                  class="solr.extraction.ExtractingRequestHandler" >
    <lst name="defaults">
      <str name="lowernames">true</str>
      <str name="uprefix">ignored_</str>

      <!-- capture link hrefs but ignore div attributes -->
      <str name="captureAttr">true</str>
      <str name="fmap.a">links</str>
      <str name="fmap.div">ignored_</str>
    </lst>
  </requestHandler>
並將其註解掉改為
<requestHandler name="/update/extract" class="org.apache.solr.handler.extraction.ExtractingRequestHandler">
    <lst name="defaults">
      <str name="fmap.Last-Modified">last_modified</str>
      <str name="uprefix">ignored_</str>
    </lst>
    <!--Optional.  Specify a path to a tika configuration file.  See the Tika docs for details.-->
    <!-- <str name="tika.config">/my/path/to/tika.config</str> -->
    <!-- Optional. Specify one or more date formats to parse.  See DateUtil.DEFAULT_DATE_FORMATS for default date formats -->
    <!-- <lst name="date.formats">
      <str>yyyy-MM-dd</str>
    </lst> -->
  </requestHandler>
其中
<str name="tika.config">/my/path/to/tika.config</str>
<lst name="date.formats">
      <str>yyyy-MM-dd</str>
</lst>
皆為 Optional ,暫時先不設,未來才加入設定及可。