Solr Reference Guide issue for simplified tokenizers

Nikolay Khitrin Sun, 15 Apr 2018 04:42:58 -0700

I'm feeling I found an issue in Solr Reference Guide for Simplified Regular
Expression Pattern [Splitting ]Tokenizer (https://lucene.apache.org/
solr/guide/7_3/tokenizers.html#simplified-regular-
expression-pattern-splitting-tokenizer).


Given example is

<analyzer>
  <tokenizer class="solr.SimplePatternSplitTokenizerFactory"
pattern="[ \t\r\n]+"/></analyzer>


but Lucene's RegExp constructor consumes raw unicode characters instead of
\t\r\n form, so correct configuration is

<tokenizer class="solr.SimplePatternSplitTokenizerFactory" pattern="[ &#x9;&
#xA;&#xD;]+"/>

-- 
Nikolay Khitrin

Solr Reference Guide issue for simplified tokenizers

Reply via email to