Hi;

I want to run an NLP algorithm for Wikipedia data. I used dataimport
handler for dump data and everything is OK. However there are some texts as
like:

== Altyapı bilgileri == Köyde, [[ilköğretim]] okulu yoktur fakat taşımalı
eğitimden yararlanılmaktadır.

I think that it should be like that:

Altyapı bilgileri Köyde, ilköğretim okulu yoktur fakat taşımalı eğitimden
yararlanılmaktadır.

On the other hand this should be removed:

{| border="0" cellpadding="5" cellspacing="5" |- bgcolor="#aaaaaa"
|'''Seçim Yılı''' |'''Muhtar''' |- bgcolor="#dddddd" |[[2009]] |kazım
güngör |- bgcolor="#dddddd" | |Ömer Gungor |- bgcolor="#dddddd" | |Fazlı
Uzun |- bgcolor="#dddddd" | |Cemal Özden |- bgcolor="#dddddd" | | |}

Also including titles as like == Altyapı bilgileri == should be optional (I
think that they can be removed for some purposes)

My question is that. Is there any analyzer combination to clean up
Wikipedia data for Solr?

Thanks;
Furkan KAMACI

Reply via email to