No, celá wikidata budou asi větší než pár mega... Vybraný podgraf (např. čeští občané kteří ještě neumřeli, případně umřeli zcela nedávno) by možná dával smysl (ale je to otázka: veřejní činitelé budou ještě dost malou podmnožinou veřejně známých lidí, a definovat veřejného činitele podle CRO v terminologii wikidat není tak jednoduché), akorát mě vůbec nenapadlo že by něco takového šlo - jak se to dělá?
______________________________________________________________ > Od: "Jan Hrach" <[email protected]> > Komu: [email protected] > Datum: 15.10.2020 17:03 > Předmět: Re: [Brmlab] Centrální registr oznámení (was: VFD displeje) > >Nemyslím si, že je dobré zatěžovat tu veřejnou databázi mnoha dotazy. Nedá se >stáhnout vybraný podgraf (nebo v nejhorším celá wikidata), pustit si to u sebe >a dělat si ty dotazy lokálně? > >On 15. 10. 20 12:46, Václav Bárta wrote: >> Hi, >> >> On 10/14/20 11:17 AM, Ondrej Beranek wrote: >>> toliko novinky. Děláte někdo na něčem ? >> Ano, jako obvykle na softwaru, a jako obvykle mi chybí hardware... :-) >> >> Pro https://www.hlidacstatu.cz/ stahuju majetková přiznání veřejných >> činitelů z https://cro.justice.cz/ (což není takový problém) obohacené z >> https://www.wikidata.org/wiki/Wikidata:Main_Page (což je výzva, protože na >> 99% tam ty osoby prostě nejsou, a když už jsou, je ten graf dost velký, >> složitý, chybný a nestabilní), a jak tak přidávám nové a nové dotazy, trvá >> mi teď jeden run (cca. 5e4 přiznání + 1e5 dynamických dotazů) 4 dny, což >> směřuje mé myšlenky k optimalizaci... Bottleneck je patrně hledání ve >> wikidatech (na objem se stahuje jen pár mega); jeho zjevnou optimalizací je >> paralelizace, kterou ovšem wikidata nerada vidí (HTTP 429) - takže je >> otázkou viděla-li by paralelizaci přes více IP, které ovšem nemám... >> >> Uvažoval jsem o cloudu, ale moje poslední pokusy na AWS vedly akorát k >> výdajům za nezrušené předplatné, takže přemýšlím o komunitnějších variantách >> - nenašlo by se v Brmlabu pár linuxových VPN s veřejnými adresami, na >> kterých by se dal můj crawler zprovoznit? Multi-host setup je už téměř >> implementován... :-) >> >> Bye >> Vašek >> _______________________________________________ >> Brmlab mailing list >> [email protected] >> https://brmlab.cz/cgi-bin/mailman/listinfo/brmlab >> > >-- >Jan Hrach | https://jenda.hrach.eu/ >_______________________________________________ >Brmlab mailing list >[email protected] >https://brmlab.cz/cgi-bin/mailman/listinfo/brmlab > > _______________________________________________ Brmlab mailing list [email protected] https://brmlab.cz/cgi-bin/mailman/listinfo/brmlab
