Indexing PDF - literal field already there & many "null"'s in text field

alexander sulz Fri, 17 Sep 2010 09:30:36 -0700

 Hi everyone.

Im successfully indexing PDF files right now but I still got some problems.


1. Tika seems to map some content to appropiate fields in my schema.xml

If I pass on a literal.title=blabla parameter, tika may have parsed someinformation

out of the pdf to fill in the field "title" itself.

Now title is not a multiValued field, so I get an error. How can Ichange this behaviour,

making tika stop filling fields for example.

2. My "text" field is successfully filled with content parsed by tika,but it contains

many "null" strings. Here is a little extract:

nullommen nullie mit diesem ausgefnullllten nulleratungs-nullutscheinnullu einem Lagerhaus nullaustoffnullerater ineinem Lagerhaus in nullhrer Nnullhe und fragen nullie nach demEnergiesnullar-Potennullial fnull nullhr EigenheimnullDie kostenlose Energiespar-Beratung ist gültig bis nullunullnullnullDenullenullber nullnullnullnullunnullin nullenullerLagernullaus-Baustoffe nullbteilung einlnullsbarnullDiepersnullnlinullnulle Energiespar-Beratung erfolgtaussnullnulllienulllinullnullinullLagernullausnullDieserBeratungs-nullutsnullnullein ist eine kostenlose Sernullinulleleistungfür nullie Erstellung eines unnullerbinnulllinullnullen nullngebotesnullur Optinullierung nuller EnergieeffinulliennullInullresEigennulleinulles für nullen oben nullefinierten nulleitraunullnull

Quelle: Fachverband Wärmedämm-Verbundsysteme, Baden-Baden
nie
nulli
enull
er Fa
ss
anull
en
ris
senull
anull
snull
anulll null
nullm
anull
nullinullnull
spr
eis
einull
e F
enulls
nuller
nullanull
nullnullnullnull
ei null
enullnull
re
anullnullinullnullsfenullsnullernullanullnull
1nullm nullnuller null5m
nullanullimale nullualitätnull
• für innen und aunullen
• langlebig und nulletterfest
• nullarm und pnullegeleicht
nullunullenfensterbanknullnullnull,null cm
1nullnullnullnullnulllfm
nullelnullpal cnullnullnullacnullminullnullnullfacnulls cnullnullnullnull
fnull m anullernullrnullnullFassanulle nullFenullsnuller

Thanks for your time

Indexing PDF - literal field already there & many "null"'s in text field

Reply via email to