Hi everyone.
Im successfully indexing PDF files right now but I still got some problems.
1. Tika seems to map some content to appropiate fields in my schema.xml
If I pass on a literal.title=blabla parameter, tika may have parsed some
information
out of the pdf to fill in the field "title" itself.
Now title is not a multiValued field, so I get an error. How can I
change this behaviour,
making tika stop filling fields for example.
2. My "text" field is successfully filled with content parsed by tika,
but it contains
many "null" strings. Here is a little extract:
nullommen nullie mit diesem ausgefnullllten nulleratungs-nullutschein
nullu einem Lagerhaus nullaustoffnullerater in
einem Lagerhaus in nullhrer Nnullhe und fragen nullie nach dem
Energiesnullar-Potennullial fnull nullhr Eigenheimnull
Die kostenlose Energiespar-Beratung ist gültig bis nullunull
nullnullDenullenullber nullnullnullnullunnullin nullenuller
Lagernullaus-Baustoffe nullbteilung einlnullsbarnullDie
persnullnlinullnulle Energiespar-
Beratung erfolgt
aussnullnulllienulllinullnullinullLagernullausnullDieser
Beratungs-nullutsnullnullein ist eine kostenlose Sernullinulleleistung
für nullie Erstellung eines unnullerbinnulllinullnullen nullngebotes
nullur Optinullierung nuller EnergieeffinulliennullInullres
Eigennulleinulles für nullen oben nullefinierten nulleitraunullnull
Quelle: Fachverband Wärmedämm-Verbundsysteme, Baden-Baden
nie
nulli
enull
er Fa
ss
anull
en
ris
senull
anull
snull
anulll null
nullm
anull
nullinullnull
spr
eis
einull
e F
enulls
nuller
nullanull
nullnullnullnull
ei null
enullnull
re
anullnullinullnullsfenullsnullernullanullnull
1nullm nullnuller null5m
nullanullimale nullualitätnull
• für innen und aunullen
• langlebig und nulletterfest
• nullarm und pnullegeleicht
nullunullenfensterbanknullnullnull,null cm
1nullnullnullnullnulllfm
nullelnullpal cnullnullnullacnullminullnullnullfacnulls cnullnullnullnull
fnull m anullernullrnullnullFassanulle nullFenullsnuller
Thanks for your time