Hi everyone.

Im successfully indexing PDF files right now but I still got some problems.

1. Tika seems to map some content to appropiate fields in my schema.xml
If I pass on a literal.title=blabla parameter, tika may have parsed some information
out of the pdf to fill in the field "title" itself.
Now title is not a multiValued field, so I get an error. How can I change this behaviour,
making tika stop filling fields for example.

2. My "text" field is successfully filled with content parsed by tika, but it contains
many "null" strings. Here is a little extract:
nullommen nullie mit diesem ausgefnullllten nulleratungs-nullutschein nullu einem Lagerhaus nullaustoffnullerater in einem Lagerhaus in nullhrer Nnullhe und fragen nullie nach dem Energiesnullar-Potennullial fnull nullhr Eigenheimnull Die kostenlose Energiespar-Beratung ist gültig bis nullunull nullnullDenullenullber nullnullnullnullunnullin nullenuller Lagernullaus-Baustoffe nullbteilung einlnullsbarnullDie persnullnlinullnulle Energiespar- Beratung erfolgt aussnullnulllienulllinullnullinullLagernullausnullDieser Beratungs-nullutsnullnullein ist eine kostenlose Sernullinulleleistung für nullie Erstellung eines unnullerbinnulllinullnullen nullngebotes nullur Optinullierung nuller EnergieeffinulliennullInullres Eigennulleinulles für nullen oben nullefinierten nulleitraunullnull
Quelle: Fachverband Wärmedämm-Verbundsysteme, Baden-Baden
nie
nulli
enull
er Fa
ss
anull
en
ris
senull
anull
snull
anulll null
nullm
anull
nullinullnull
spr
eis
einull
e F
enulls
nuller
nullanull
nullnullnullnull
ei null
enullnull
re
anullnullinullnullsfenullsnullernullanullnull
1nullm nullnuller null5m
nullanullimale nullualitätnull
• für innen und aunullen
• langlebig und nulletterfest
• nullarm und pnullegeleicht
nullunullenfensterbanknullnullnull,null cm
1nullnullnullnullnulllfm
nullelnullpal cnullnullnullacnullminullnullnullfacnulls cnullnullnullnull
fnull m anullernullrnullnullFassanulle nullFenullsnuller

Thanks for your time

Reply via email to