karlwettin edited a comment on pull request #136: URL: https://github.com/apache/lucene/pull/136#issuecomment-843614395
I gave the stemmer a spin on [SAOL](https://en.wikipedia.org/wiki/Svenska_Akademiens_ordlista) 13 (2006). I have to stay within the bounds of fair use and can't publish the complete results. Generally speaking I think it does a remarkable job with such a small decision tree. Given what it's meant to do, I would merge it. A few notes that are more applicable on a not so minimal implementation: The suffix-s pluralis rule have ~5300 exceptions where words ends with s is nominative case singularis. It's also missing the rules defined in LUCENE-1515, especially 'an' and 'ans'-suffixes. Back then I came to the conclusion that 8% of the Swedish language can be inflected that way, but there is a list of ~200 words that needs to be setup as exceptions to those rules. Two standard an/ans-suffixes: | Stemmed | Original | | ------------- |:-------------:| ättiksgurk | ättiksgurka ättiksgurka | ättiksgurkan ättiksgurka | ättiksgurkans ättiksgurk | ättiksgurkas ättiksgurk | ättiksgurkor ättiksgurk | ättiksgurkorna ättiksgurk | ättiksgurkornas ättiksgurk | ättiksgurkors | Stemmed | Original | | ------------- |:-------------:| ättestup | ättestupa ättestupa | ättestupan ättestupa | ättestupans ättestup | ättestupas ättestup | ättestupor ättestup | ättestuporna ättestup | ättestupornas ättestup | ättestupors There are probably more complete and better examples of this in LUCENE-1515. And if I have to go looking for problems, I see these: | Stemmed | Original | | ------------- |:-------------:| höstmörk | höstmörker höstmörk | höstmörkers höstmörkr | höstmörkret höstmörkr | höstmörkrets | Stemmed | Original | | ------------- |:-------------:| höstkollektio | höstkollektion höstkollektion | höstkollektionen höstkollektion | höstkollektionens höstkollektion | höstkollektioner höstkollektion | höstkollektionerna höstkollektion | höstkollektionernas höstkollektion | höstkollektioners höstkollektio | höstkollektions This one is a number of different words with very different meaning that turn out completely mixed up, not all nous though: | Stemmed | Original | | ------------- |:-------------:| hölj | hölj hölj | hölja hölja | höljan höljand | höljande hölja | höljans hölj | höljas höljd | höljd höljd | höljda höljd | höljde höljd | höljdes hölj | hölje hölj | höljen höljen | höljena höljen | höljenas hölj | höljens hölj | höljer hölj | höljes hölj | höljet hölj | höljets hölj | höljor hölj | höljorna hölj | höljornas hölj | höljors hölj | höljs höljt | höljt höljt | höljts I'm afraid it isn't possible to extract stemmer rules and exception lists from SAOL due to copyright issues (unless we find a digital copy that's at least 20 years old), but perhaps an alternative and more global route would be to mine [Wikidata:Lexicographical data](https://www.wikidata.org/wiki/Wikidata:Lexicographical_data)? https://www.wikidata.org/wiki/Lexeme:L38829 -- This is an automated message from the Apache Git Service. To respond to the message, please log on to GitHub and use the URL above to go to the specific comment. For queries about this service, please contact Infrastructure at: us...@infra.apache.org --------------------------------------------------------------------- To unsubscribe, e-mail: issues-unsubscr...@lucene.apache.org For additional commands, e-mail: issues-h...@lucene.apache.org