Tika is not perfect. Very much not perfect. I've seen a 10-15% failure rate on randomly sampled files. It works for creating searchable text fields, but not for text fields to return. That is, the anlyzers rip out the nulls and make an intelligible stream of words.
If you want to save these words and return them as text, you'll have to use the Tika EntityProcessor in the dataimporthandler. This is a trunk/3.x feature. If you take the text stream it creates and post-process that (in the pattern thing?) that might get you there. TikaEntityProcessor does not find the right parser, so you have to give the parser class with parser=".......Parser". Lance 2010/9/17 alexander sulz <a.s...@digiconcept.net>: > Hi everyone. > > Im successfully indexing PDF files right now but I still got some problems. > > 1. Tika seems to map some content to appropiate fields in my schema.xml > If I pass on a literal.title=blabla parameter, tika may have parsed some > information > out of the pdf to fill in the field "title" itself. > Now title is not a multiValued field, so I get an error. How can I change > this behaviour, > making tika stop filling fields for example. > > 2. My "text" field is successfully filled with content parsed by tika, but > it contains > many "null" strings. Here is a little extract: > nullommen nullie mit diesem ausgefnullllten nulleratungs-nullutschein nullu > einem Lagerhaus nullaustoffnullerater in > einem Lagerhaus in nullhrer Nnullhe und fragen nullie nach dem > Energiesnullar-Potennullial fnull nullhr Eigenheimnull > Die kostenlose Energiespar-Beratung ist gültig bis nullunull > nullnullDenullenullber nullnullnullnullunnullin nullenuller > Lagernullaus-Baustoffe nullbteilung einlnullsbarnullDie persnullnlinullnulle > Energiespar- > Beratung erfolgt aussnullnulllienulllinullnullinullLagernullausnullDieser > Beratungs-nullutsnullnullein ist eine kostenlose Sernullinulleleistung für > nullie Erstellung eines unnullerbinnulllinullnullen nullngebotes > nullur Optinullierung nuller EnergieeffinulliennullInullres > Eigennulleinulles für nullen oben nullefinierten nulleitraunullnull > Quelle: Fachverband Wärmedämm-Verbundsysteme, Baden-Baden > nie > nulli > enull > er Fa > ss > anull > en > ris > senull > anull > snull > anulll null > nullm > anull > nullinullnull > spr > eis > einull > e F > enulls > nuller > nullanull > nullnullnullnull > ei null > enullnull > re > anullnullinullnullsfenullsnullernullanullnull > 1nullm nullnuller null5m > nullanullimale nullualitätnull > • für innen und aunullen > • langlebig und nulletterfest > • nullarm und pnullegeleicht > nullunullenfensterbanknullnullnull,null cm > 1nullnullnullnullnulllfm > nullelnullpal cnullnullnullacnullminullnullnullfacnulls cnullnullnullnull > fnull m anullernullrnullnullFassanulle nullFenullsnuller > > Thanks for your time > -- Lance Norskog goks...@gmail.com