Tika is not perfect. Very much not perfect. I've seen a 10-15% failure
rate on randomly sampled files. It works for creating searchable text
fields, but not for text fields to return. That is, the anlyzers rip
out the nulls and make an intelligible stream of words.

If you want to save these words and return them as text, you'll have
to use the Tika EntityProcessor in the dataimporthandler. This is a
trunk/3.x feature. If you take the text stream it creates and
post-process that (in the pattern thing?) that might get you there.

TikaEntityProcessor does not find the right parser, so you have to
give the parser class with parser=".......Parser".

Lance

2010/9/17 alexander sulz <a.s...@digiconcept.net>:
>  Hi everyone.
>
> Im successfully indexing PDF files right now but I still got some problems.
>
> 1. Tika seems to map some content to appropiate fields in my schema.xml
> If I pass on a literal.title=blabla parameter, tika may have parsed some
> information
> out of the pdf to fill in the field "title" itself.
> Now title is not a multiValued field, so I get an error. How can I change
> this behaviour,
> making tika stop filling fields for example.
>
> 2. My "text" field is successfully filled with content parsed by tika, but
> it contains
> many "null" strings. Here is a little extract:
> nullommen nullie mit diesem ausgefnullllten nulleratungs-nullutschein nullu
> einem Lagerhaus nullaustoffnullerater in
> einem Lagerhaus in nullhrer Nnullhe und fragen nullie nach dem
> Energiesnullar-Potennullial fnull nullhr Eigenheimnull
> Die kostenlose Energiespar-Beratung ist gültig bis nullunull
> nullnullDenullenullber nullnullnullnullunnullin nullenuller
> Lagernullaus-Baustoffe nullbteilung einlnullsbarnullDie persnullnlinullnulle
> Energiespar-
> Beratung erfolgt aussnullnulllienulllinullnullinullLagernullausnullDieser
> Beratungs-nullutsnullnullein ist eine kostenlose Sernullinulleleistung für
> nullie Erstellung eines unnullerbinnulllinullnullen nullngebotes
> nullur Optinullierung nuller EnergieeffinulliennullInullres
> Eigennulleinulles für nullen oben nullefinierten nulleitraunullnull
> Quelle: Fachverband Wärmedämm-Verbundsysteme, Baden-Baden
> nie
> nulli
> enull
> er Fa
> ss
> anull
> en
> ris
> senull
> anull
> snull
> anulll null
> nullm
> anull
> nullinullnull
> spr
> eis
> einull
> e F
> enulls
> nuller
> nullanull
> nullnullnullnull
> ei null
> enullnull
> re
> anullnullinullnullsfenullsnullernullanullnull
> 1nullm nullnuller null5m
> nullanullimale nullualitätnull
> • für innen und aunullen
> • langlebig und nulletterfest
> • nullarm und pnullegeleicht
> nullunullenfensterbanknullnullnull,null cm
> 1nullnullnullnullnulllfm
> nullelnullpal cnullnullnullacnullminullnullnullfacnulls cnullnullnullnull
> fnull m anullernullrnullnullFassanulle nullFenullsnuller
>
> Thanks for your time
>



-- 
Lance Norskog
goks...@gmail.com

Reply via email to