karlwettin edited a comment on pull request #136:
URL: https://github.com/apache/lucene/pull/136#issuecomment-843614395


   I gave the stemmer a spin on 
[SAOL](https://en.wikipedia.org/wiki/Svenska_Akademiens_ordlista) 13 (2006). I 
have to stay within the bounds of fair use and can't publish the complete 
results.
   
   Generally speaking I think it does a remarkable job with such a small 
decision tree. Given what it's meant to do, I would merge it.
   
   A few notes that are more applicable on a not so minimal implementation:
   
   The suffix-s pluralis rule have ~5300 exceptions where words ends with s is 
nominative case singularis.
   
   It's also missing the rules defined in LUCENE-1515, especially 'an' and 
'ans'-suffixes. Back then I came to the conclusion that 8% of the Swedish 
language can be inflected that way, but there is a list of ~200 words that 
needs to be setup as exceptions to those rules.
   
   Two standard an/ans-suffixes:
   
   | Stemmed        | Original           |
   | ------------- |:-------------:|
   ättiksgurk | ättiksgurka
   ättiksgurka | ättiksgurkan
   ättiksgurka | ättiksgurkans
   ättiksgurk | ättiksgurkas
   ättiksgurk | ättiksgurkor
   ättiksgurk | ättiksgurkorna
   ättiksgurk | ättiksgurkornas
   ättiksgurk | ättiksgurkors
   
   | Stemmed        | Original           |
   | ------------- |:-------------:|
   ättestup | ättestupa
   ättestupa | ättestupan
   ättestupa | ättestupans
   ättestup | ättestupas
   ättestup | ättestupor
   ättestup | ättestuporna
   ättestup | ättestupornas
   ättestup | ättestupors
   
   There are probably more complete and better examples of this in LUCENE-1515.
   
   And if I have to go looking for problems, I see these:
   
   | Stemmed        | Original           |
   | ------------- |:-------------:|
   höstmörk | höstmörker
   höstmörk | höstmörkers
   höstmörkr | höstmörkret
   höstmörkr | höstmörkrets
   
   | Stemmed        | Original           |
   | ------------- |:-------------:|
   höstkollektio | höstkollektion
   höstkollektion | höstkollektionen
   höstkollektion | höstkollektionens
   höstkollektion | höstkollektioner
   höstkollektion | höstkollektionerna
   höstkollektion | höstkollektionernas
   höstkollektion | höstkollektioners
   höstkollektio | höstkollektions
   
   This one is a number of different words with very different meaning that 
turn out completely mixed up, not all nous though:
   
   | Stemmed        | Original           |
   | ------------- |:-------------:|
   hölj | hölj
   hölj | hölja
   hölja | höljan
   höljand | höljande
   hölja | höljans
   hölj | höljas
   höljd | höljd
   höljd | höljda
   höljd | höljde
   höljd | höljdes
   hölj | hölje
   hölj | höljen
   höljen | höljena
   höljen | höljenas
   hölj | höljens
   hölj | höljer
   hölj | höljes
   hölj | höljet
   hölj | höljets
   hölj | höljor
   hölj | höljorna
   hölj | höljornas
   hölj | höljors
   hölj | höljs
   höljt | höljt
   höljt | höljts
   
   I'm afraid it isn't possible to extract stemmer rules and exception lists 
from SAOL due to copyright issues (unless we find a digital copy that's at 
least 20 years old), but perhaps an alternative and more global route would be 
to mine [Wikidata:Lexicographical 
data](https://www.wikidata.org/wiki/Wikidata:Lexicographical_data)?
   
   https://www.wikidata.org/wiki/Lexeme:L38829


-- 
This is an automated message from the Apache Git Service.
To respond to the message, please log on to GitHub and use the
URL above to go to the specific comment.

For queries about this service, please contact Infrastructure at:
us...@infra.apache.org



---------------------------------------------------------------------
To unsubscribe, e-mail: issues-unsubscr...@lucene.apache.org
For additional commands, e-mail: issues-h...@lucene.apache.org

Reply via email to