> No, celá wikidata budou asi větší než pár mega... Jo, ale od určité chvíle začne převažovat cena zpracování nad cenou toho trafficu. Navíc to není zas _tak_ velké, tady https://www.wikidata.org/wiki/Wikidata:Database_download to má 26 nebo 56 GB zabzipované (nevím které z toho je to správné a jestli je to teda ono). No a to si pak naloaduješ do nějaké své grafové databáze.
> akorát mě vůbec nenapadlo že by něco takového šlo - jak se to dělá? No to já nevím, tohle znám jenom dost teoreticky :). Ale subgraph query by to mohlo umět, ne? (otázka je, jestli nebude omezená velikostí) Našel jsem třeba https://wdumps.toolforge.org/, ale nezkoušel jsem. On 15. 10. 20 17:21, Václav Bárta wrote: > No, celá wikidata budou asi větší než pár mega... Vybraný podgraf (např. > čeští občané kteří ještě neumřeli, případně umřeli zcela nedávno) by možná > dával smysl (ale je to otázka: veřejní činitelé budou ještě dost malou > podmnožinou veřejně známých lidí, a definovat veřejného činitele podle CRO v > terminologii wikidat není tak jednoduché), akorát mě vůbec nenapadlo že by > něco takového šlo - jak se to dělá? > > ______________________________________________________________ >> Od: "Jan Hrach" <[email protected]> >> Komu: [email protected] >> Datum: 15.10.2020 17:03 >> Předmět: Re: [Brmlab] Centrální registr oznámení (was: VFD displeje) >> >> Nemyslím si, že je dobré zatěžovat tu veřejnou databázi mnoha dotazy. Nedá >> se stáhnout vybraný podgraf (nebo v nejhorším celá wikidata), pustit si to u >> sebe a dělat si ty dotazy lokálně? >> >> On 15. 10. 20 12:46, Václav Bárta wrote: >>> Hi, >>> >>> On 10/14/20 11:17 AM, Ondrej Beranek wrote: >>>> toliko novinky. Děláte někdo na něčem ? >>> Ano, jako obvykle na softwaru, a jako obvykle mi chybí hardware... :-) >>> >>> Pro https://www.hlidacstatu.cz/ stahuju majetková přiznání veřejných >>> činitelů z https://cro.justice.cz/ (což není takový problém) obohacené z >>> https://www.wikidata.org/wiki/Wikidata:Main_Page (což je výzva, protože na >>> 99% tam ty osoby prostě nejsou, a když už jsou, je ten graf dost velký, >>> složitý, chybný a nestabilní), a jak tak přidávám nové a nové dotazy, trvá >>> mi teď jeden run (cca. 5e4 přiznání + 1e5 dynamických dotazů) 4 dny, což >>> směřuje mé myšlenky k optimalizaci... Bottleneck je patrně hledání ve >>> wikidatech (na objem se stahuje jen pár mega); jeho zjevnou optimalizací je >>> paralelizace, kterou ovšem wikidata nerada vidí (HTTP 429) - takže je >>> otázkou viděla-li by paralelizaci přes více IP, které ovšem nemám... >>> >>> Uvažoval jsem o cloudu, ale moje poslední pokusy na AWS vedly akorát k >>> výdajům za nezrušené předplatné, takže přemýšlím o komunitnějších >>> variantách - nenašlo by se v Brmlabu pár linuxových VPN s veřejnými >>> adresami, na kterých by se dal můj crawler zprovoznit? Multi-host setup je >>> už téměř implementován... :-) >>> >>> Bye >>> Vašek >>> _______________________________________________ >>> Brmlab mailing list >>> [email protected] >>> https://brmlab.cz/cgi-bin/mailman/listinfo/brmlab >>> >> >> -- >> Jan Hrach | https://jenda.hrach.eu/ >> _______________________________________________ >> Brmlab mailing list >> [email protected] >> https://brmlab.cz/cgi-bin/mailman/listinfo/brmlab >> >> > _______________________________________________ > Brmlab mailing list > [email protected] > https://brmlab.cz/cgi-bin/mailman/listinfo/brmlab > -- Jan Hrach | https://jenda.hrach.eu/ _______________________________________________ Brmlab mailing list [email protected] https://brmlab.cz/cgi-bin/mailman/listinfo/brmlab
