Damn data (17 oktober 2013)

damndata

Midden oktober schoof ik aan voor het tech event rond “Big Data”, georganiseerd door de jongens van Combell en IdeaLabs: Damn Data!

Waarom “Damn Data”?
“We’d like to remind our audience that not everything is a damn SQL statement”

Voor een eerste editie is dit meer dan geslaagd: goeie organisatie, leuke ruimte en smakelijk eten en bijhorende drank. Nadien Vedett à volonté!
Ook inhoudelijk hebben ze wel wat potten gebroken: in plaats van de typische set te programmeren rond de hype van “big data”, hebben ze’t meer technische en pragmatisch aangepakt. Er was een goeie mix tussen lokale helden (Steven Noels – NGData; Wim Van Leuven – Bigdata.be; …), en de grotere gevestigde waarden (Ross Lawley – MongoDB; Chaitanya Mishra – Facebook; …)

Wat heb ik genoteerd?

  • Je big data architectuur is sterk afhankelijk van de applicatie die aan het bouwen bent, idem voor de technologische keuzes;
  • My Hadoop is bigger than yours” blijkt een populair t-shirt te zijn;
  • Facebook gebruikt een eigen systeem voor real time adhoc analyses (Presto), en heeft dat ook gedeeld naar de rest van de wereld;
  • Facebook doet per pageview ongeveer 3 queries naar de database. De overige 1200 items komen integraal uit de cache. Per pageview verschepen ze 200kB aan data, en dat een paar miljard keer per dag;
  • Facebook gelooft in “developing objects that do one thing only, but do it really really well”;
  • Storm is “the new kid on the block”, dat aan distributed realtime computation doet. Concreet: processing benchmarks van 1 miljoen records per seconde, per node zijn vrij indrukwekkend;
  • Bij de start van een nieuw “big data” project is het belangrijk om “skinny” te beginnen, in plaats van onmiddelijk de “big guns” binnen te halen. Die komen ongetwijfeld later nog aan bod …;