> No, celá wikidata budou asi větší než pár mega...
Jo, ale od určité chvíle začne převažovat cena zpracování nad cenou toho 
trafficu. Navíc to není zas _tak_ velké, tady 
https://www.wikidata.org/wiki/Wikidata:Database_download to má 26 nebo 56 GB 
zabzipované (nevím které z toho je to správné a jestli je to teda ono). No a to 
si pak naloaduješ do nějaké své grafové databáze.

> akorát mě vůbec nenapadlo že by něco takového šlo - jak se to dělá?
No to já nevím, tohle znám jenom dost teoreticky :). Ale subgraph query by to 
mohlo umět, ne? (otázka je, jestli nebude omezená velikostí) Našel jsem třeba 
https://wdumps.toolforge.org/, ale nezkoušel jsem.

On 15. 10. 20 17:21, Václav Bárta wrote:
> No, celá wikidata budou asi větší než pár mega... Vybraný podgraf (např. 
> čeští občané kteří ještě neumřeli, případně umřeli zcela nedávno) by možná 
> dával smysl (ale je to otázka: veřejní činitelé budou ještě dost malou 
> podmnožinou veřejně známých lidí, a definovat veřejného činitele podle CRO v 
> terminologii wikidat není tak jednoduché), akorát mě vůbec nenapadlo že by 
> něco takového šlo - jak se to dělá?
> 
> ______________________________________________________________
>> Od: "Jan Hrach" <[email protected]>
>> Komu: [email protected]
>> Datum: 15.10.2020 17:03
>> Předmět: Re: [Brmlab]  Centrální registr oznámení (was: VFD displeje)
>>
>> Nemyslím si, že je dobré zatěžovat tu veřejnou databázi mnoha dotazy. Nedá 
>> se stáhnout vybraný podgraf (nebo v nejhorším celá wikidata), pustit si to u 
>> sebe a dělat si ty dotazy lokálně?
>>
>> On 15. 10. 20 12:46, Václav Bárta wrote:
>>> Hi,
>>>
>>> On 10/14/20 11:17 AM, Ondrej Beranek wrote:
>>>> toliko novinky. Děláte někdo na něčem ?
>>> Ano, jako obvykle na softwaru, a jako obvykle mi chybí hardware... :-)
>>>
>>> Pro https://www.hlidacstatu.cz/ stahuju majetková přiznání veřejných 
>>> činitelů z https://cro.justice.cz/ (což není takový problém) obohacené z 
>>> https://www.wikidata.org/wiki/Wikidata:Main_Page (což je výzva, protože na 
>>> 99% tam ty osoby prostě nejsou, a když už jsou, je ten graf dost velký, 
>>> složitý, chybný a nestabilní), a jak tak přidávám nové a nové dotazy, trvá 
>>> mi teď jeden run (cca. 5e4 přiznání + 1e5 dynamických dotazů) 4 dny, což 
>>> směřuje mé myšlenky k optimalizaci... Bottleneck je patrně hledání ve 
>>> wikidatech (na objem se stahuje jen pár mega); jeho zjevnou optimalizací je 
>>> paralelizace, kterou ovšem wikidata nerada vidí (HTTP 429) - takže je 
>>> otázkou viděla-li by paralelizaci přes více IP, které ovšem nemám...
>>>
>>> Uvažoval jsem o cloudu, ale moje poslední pokusy na AWS vedly akorát k 
>>> výdajům za nezrušené předplatné, takže přemýšlím o komunitnějších 
>>> variantách - nenašlo by se v Brmlabu pár linuxových VPN s veřejnými 
>>> adresami, na kterých by se dal můj crawler zprovoznit? Multi-host setup je 
>>> už téměř implementován... :-)
>>>
>>>   Bye
>>>     Vašek
>>> _______________________________________________
>>> Brmlab mailing list
>>> [email protected]
>>> https://brmlab.cz/cgi-bin/mailman/listinfo/brmlab
>>>
>>
>> -- 
>> Jan Hrach | https://jenda.hrach.eu/
>> _______________________________________________
>> Brmlab mailing list
>> [email protected]
>> https://brmlab.cz/cgi-bin/mailman/listinfo/brmlab
>>
>>
> _______________________________________________
> Brmlab mailing list
> [email protected]
> https://brmlab.cz/cgi-bin/mailman/listinfo/brmlab
> 

-- 
Jan Hrach | https://jenda.hrach.eu/
_______________________________________________
Brmlab mailing list
[email protected]
https://brmlab.cz/cgi-bin/mailman/listinfo/brmlab

Odpovedet emailem