Data aggregatie en privacy

In 2010 heeft Moneybird bijna 100.000 facturen verzonden voor ondernemers in Nederland. De gegevens van deze facturen zijn allemaal opgeslagen in een database. Omdat het hier om privacygevoelige informatie gaat, nemen wij de beveiliging en opslag van deze gegevens zeer serieus. Maar naast dat de opslag van deze informatie een grote verantwoordelijkheid met zich meebrengt, geeft het ook een schat aan mogelijkheden voor analyse van de informatie. In dit artikel leg ik graag uit op welke manier we analyse toepassen op onze database, maar vooral hoe we hierbij de privacy van onze gebruikers waarborgen.

Wat kunnen we te weten komen?

De informatie in onze database kan ons op verschillende manieren waardevolle informatie geven. Zo kunnen we iets zeggen over de groei van ons bedrijf, het aantal nieuwe gebruikers en de manier waarop gebruikers onze dienst gebruiken. Dit geeft inzicht in het nut van bepaalde features en geeft ons een schat aan informatie voor het bijsturen van onze strategiën binnen het bedrijf.

Naast de informatie die specifiek voor Moneybird is, kunnen we ook veel vertellen over het facturatie gedrag van kleine ondernemers in Nederland. Welke vervaltermijn gebruikt men zoal op een factuur? Hoeveel dagen kost het om een betaling binnen te krijgen? Hoeveel herinneringen moet je gemiddeld versturen om een betaling te krijgen? Deze weetjes kunnen ondernemers bijsturen in hun gedrag en geven inzicht op welke manier je sneller je geld kunt krijgen.

Hoe gaan we om met je gegevens

In de database van Moneybird worden alle gegevens opgeslagen in relationele tabellen. Een voorbeeld van zo’n tabel is de “factuur” tabel:

id company invoice_date total_price invoice_id contact payment_date
1 BlueTools 01-01-2011 100 20110001 Bedrijf 25-01-2011
2 BlueTools 02-01-2011 75 20110002 Jansen 02-02-2011

Elke kolom in de tabel bevat informatie over de factuur en wordt gebruikt voor het weergeven van een factuur. Zo bevat regel 1 een factuur van BlueTools aan Bedrijf van €100 en kunnen we zien dat de factuur op 25 januari 2011 betaald is. Deze informatie is privacy gevoelig en kunnen en willen we daarom niet inzien.

Maar in de statistieken waar we naar op zoek zijn, willen we nooit iets zeggen over de privacy gevoelige informatie. Om een uitspraak te doen over de factuurdatum, betaaltermijn of het gemiddelde bedrag op een factuur, hoeven we niet te weten van wie de factuur komt en naar wie de factuur gaat. De volgende tabel bevat waardevolle informatie voor statistieken, maar valt niet te herleiden naar een specifiek bedrijf of factuur:

id invoice_date total_price payment_date
1 01-01-2011 100 25-01-2011
2 02-01-2011 75 02-02-2011

Op basis van de overgebleven informatie kunnen we nu aggregatie gaan toepassen.

Hoe berekenen we statistieken op onze database

Nu we een anonieme database met informatie over facturen hebben, kunnen we statistieken gaan berekenen. Zo kunnen we over de voorbeeldtabel hierboven zeggen dat een factuur gemiddeld een bedrag van €87,50 heeft. Een database heeft slimme methoden om zo’n gemiddelde te berekenen zonder dat je elke regel hoeft te bekijken. Dit is nog een extra laag van privacy bescherming, de persoon die de statistieken maakt ziet alleen de eindresultaten en hoeft nooit een enkele regel te bekijken.

Je kunt redeneren dat een gemiddelde over 2 facturen nog steeds veel informatie prijsgeeft van onze klanten. Dat klopt en dat is ook de reden dat we in het verleden weinig met de statistieken gedaan hebben. We verstuurden te weinig facturen om er iets over te kunnen zeggen, maar hadden ook te weinig massa om de privacy te waarborgen. Een gemiddelde prijs van een factuur over 100.000 facturen is veel accurater dan een gemiddelde over 1.000 facturen.

Conclusie

Bij het berekenen van statistieken over onze database staat de privacy van gebruikers altijd voorop. We vinden het waardevol om de statistieken te communiceren om zo een beeld te geven van facturatie onder kleine ondernemers in Nederland. Hierbij garanderen we de privacy op de volgende manier:

  1. We werken altijd met anonieme gegevens, niets valt te herleiden naar een bedrijf of specifieke factuur
  2. We werken alleen met grote hoeveelheden data
  3. We gebruiken rekenmethodes waardoor we nooit naar specifieke regels hoeven te kijken
  4. Alle berekeningen worden binnen ons bedrijf gedaan, er kan dus geen informatie lekken.

Mocht je vragen hebben over onze werkwijze, we zijn altijd bereid deze te beantwoorden. Houd onze weblog in de gaten voor interessante weetjes over facturatie in Nederland!

Deel dit artikel op je favoriete social netwerk