Hoe Je Data Kwaliteit Meet (Zonder Data Scientist)
"We hebben slechte data." Dat hoor je vaak. Maar wat betekent dat eigenlijk? En belangrijker nog: hoe meet je of je data goed of slecht is?
Het goede nieuws: data kwaliteit meten hoeft niet ingewikkeld te zijn. Je hebt geen data scientist, dure tools of ingewikkelde statistiek nodig. In dit artikel leer je de 5 simpele metrieken die elke organisatie moet bijhouden.
Waarom data kwaliteit meten belangrijk is
Voordat we in de metrieken duiken, eerst dit: waarom is het überhaupt belangrijk om data kwaliteit te meten?
De kosten van slechte data
Slechte data kost geld:
- Verkeerde beslissingen op basis van onbetrouwbare cijfers
- Verspilde tijd aan data-opschoning en correcties
- Gemiste kansen door incomplete informatie
- Reputatieschade door fouten naar klanten
- Compliance-risico's (AVG, etc.)
Voorbeeld uit de praktijk:
Een webshop stuurde 2.000 klanten een e-mail naar een oud e-mailadres. Resultaat:
- 40% bounce rate
- E-mail reputatie beschadigd
- Klanten geïrriteerd
- Gemiste omzet: €15.000
De oorzaak: Geen proces om e-mailadressen actueel te houden. De oplossing: Data kwaliteit meten en verbeteren.
De waarde van goede data
Goede data levert op:
- Betere beslissingen
- Meer vertrouwen in cijfers
- Snellere processen
- Tevreden klanten
- Compliance op orde
Het verschil:
- Slechte data: "Deze cijfers kloppen niet, doe maar een gok"
- Goede data: "Op basis van deze cijfers kiezen we voor optie A"
Wat is data kwaliteit eigenlijk?
Data kwaliteit heeft 5 dimensies. Onthoud ze met het acroniem CACTU:
1. Completeness (Volledigheid)
Zijn alle verplichte velden ingevuld?
Voorbeeld:
- Klantnaam: ✓ Aanwezig
- E-mail: ✓ Aanwezig
- Telefoonnummer: ✗ Leeg (30% van records)
- Adres: ✓ Aanwezig
Gevolg: Je kunt 30% van klanten niet bellen.
2. Accuracy (Juistheid)
Komen de data overeen met de werkelijkheid?
Voorbeeld:
- Klant Jan Jansen woont in Amsterdam
- Database zegt: Rotterdam
- Accuracy probleem: Oude data niet geüpdatet
3. Consistency (Consistentie)
Zijn de data overal hetzelfde?
Voorbeeld:
- CRM systeem: Telefoonnummer +31612345678
- Boekhoudsysteem: Telefoonnummer 0612345678
- Consistency probleem: Verschillende formaten
4. Timeliness (Actualiteit)
Zijn de data nog actueel?
Voorbeeld:
- Klantadres: Hoofdstraat 1, Amsterdam
- Werkelijkheid: Klant verhuisd 6 maanden geleden
- Timeliness probleem: Verouderde data
5. Uniqueness (Uniciteit)
Geen dubbele records?
Voorbeeld:
- Record 1: Jan Jansen, jan@email.com
- Record 2: J. Jansen, jan.jansen@email.com
- Uniqueness probleem: Duplicaten (misschien dezelfde persoon?)
De 5 metrieken die je moet bijhouden
Nu de praktijk: deze 5 metrieken zijn simpel te meten en geven direct inzicht in je data kwaliteit.
Metriek 1: Volledigheid per veld
Wat meet je: Percentage records waarbij een veld is ingevuld.
Hoe meet je het:
Volledigheid = (Aantal ingevulde velden / Totaal aantal records) × 100%
Praktisch voorbeeld:
Je hebt 1.000 klantrecords met deze velden:
- Naam: 1.000 ingevuld (100%)
- E-mail: 950 ingevuld (95%)
- Telefoonnummer: 700 ingevuld (70%)
- Bedrijfsnaam: 400 ingevuld (40%)
Interpretatie:
- ✓ Naam: Prima, 100% volledig
- ✓ E-mail: Goed, 95% volledig
- ⚠ Telefoonnummer: Kan beter, 70% volledig
- ✗ Bedrijfsnaam: Probleem, maar 40% volledig
Actie:
- Maak telefoonnummer verplicht bij aanmaken nieuw record
- Voor bestaande records: bel klanten bij volgende contact
- Bedrijfsnaam: alleen verplicht bij zakelijke klanten
Tools:
- Excel:
=COUNTA(A:A)/COUNTA(B:B)*100 - Google Sheets: Zelfde formule
- SQL:
SELECT COUNT(email) / COUNT(*) * 100 FROM customers
Metriek 2: Duplicaten percentage
Wat meet je: Percentage records dat mogelijk een duplicaat is.
Hoe meet je het:
Duplicaten = (Aantal dubbele records / Totaal aantal records) × 100%
Praktisch voorbeeld:
Je hebt 1.000 klantrecords. Je vindt:
- 50 records met exact dezelfde naam en e-mail
- 30 records met dezelfde naam maar ander e-mail
- 20 records met verschillend geschreven naam maar zelfde e-mail
Berekening:
- Exacte duplicaten: 50 / 1.000 = 5%
- Mogelijke duplicaten: 30 / 1.000 = 3%
- Totaal duplicaten risico: 5% + 3% = 8%
Interpretatie:
- 0-2%: Goed (normale foutmarge)
- 2-5%: Redelijk (opschonen)
- 5-10%: Matig (actie nodig)
-
10%: Problematisch (directe actie)
Actie:
- Verwijder exacte duplicaten
- Check mogelijke duplicaten handmatig
- Implementeer duplicaat-check bij invoer
Tools:
- Excel: Voorwaardelijke opmaak → Dubbele waarden markeren
- Google Sheets: Data → Data cleanup → Remove duplicates
- SQL:
SELECT email, COUNT(*) FROM customers GROUP BY email HAVING COUNT(*) > 1
Metriek 3: Format-consistentie
Wat meet je: Percentage records dat het juiste format heeft.
Hoe meet je het:
Format-consistentie = (Aantal records met correct format / Totaal) × 100%
Praktisch voorbeeld:
Je hebt 1.000 telefoonnummers. Je verwacht format: +31612345678
Wat je vindt:
- 600 records: +31612345678 ✓ (correct)
- 200 records: 0612345678 ✗ (zonder landcode)
- 150 records: 06-12345678 ✗ (met streepje)
- 50 records: 31612345678 ✗ (zonder +)
Berekening: Format-consistentie = 600 / 1.000 = 60%
Interpretatie:
- 90-100%: Uitstekend
- 70-90%: Goed
- 50-70%: Matig (opschonen)
- <50%: Problematisch
Actie:
- Normaliseer alle nummers naar +31612345678 format
- Implementeer format-validatie bij invoer
- Train team op correct format
Tools:
- Excel: Gebruik formules om format te checken
- Google Sheets:
=REGEXMATCH(A2, "^\+31[0-9]{9}$") - SQL:
SELECT * FROM customers WHERE phone NOT LIKE '+31%'
Metriek 4: Actualiteit per dataset
Wat meet je: Gemiddelde leeftijd van je data.
Hoe meet je het:
Gemiddelde leeftijd = (Vandaag - Laatste update datum) / Aantal records
Praktisch voorbeeld:
Je hebt 1.000 klantrecords:
- 300 records: <3 maanden oud (recent)
- 400 records: 3-12 maanden oud (redelijk)
- 200 records: 1-2 jaar oud (verouderd)
- 100 records: >2 jaar oud (zeer verouderd)
Berekening:
- Recent: 30%
- Redelijk actueel: 40%
- Verouderd: 30%
Interpretatie per use case:
Marketing:
- <3 maanden: Goed
- 3-6 maanden: Opfrissen
-
6 maanden: Verifiëren
CRM:
- <6 maanden: Goed
- 6-12 maanden: Check bij contact
-
12 maanden: Verifiëren nodig
Actie:
- Stel update-frequentie per dataset
- Implementeer "laatste check" veld
- Verifieer oude records bij contact
Tools:
- Excel:
=VANDAAG()-A2(aantal dagen sinds update) - Google Sheets:
=TODAY()-A2 - SQL:
SELECT AVG(DATEDIFF(NOW(), updated_at)) FROM customers
Metriek 5: Error rate
Wat meet je: Percentage records met bekende fouten.
Hoe meet je het:
Error rate = (Aantal records met fouten / Totaal aantal records) × 100%
Praktisch voorbeeld:
Je checkt 1.000 e-mailadressen:
- 920 records: Geldig e-mailadres ✓
- 50 records: Invalid format (geen @) ✗
- 30 records: Bounce bij laatste mailing ✗
Berekening: Error rate = (50 + 30) / 1.000 = 8%
Interpretatie:
- 0-2%: Uitstekend
- 2-5%: Goed
- 5-10%: Matig (actie nodig)
-
10%: Problematisch
Actie:
- Corrigeer bekende fouten
- Implementeer validatie bij invoer
- Monitor bounce rates
Tools:
- Email validatie: EmailListVerify, ZeroBounce
- Excel:
=ALS(VINDTX("@";A2)=FOUT;"Invalid";"Valid") - SQL:
SELECT * FROM customers WHERE email NOT LIKE '%@%.%'
Praktisch stappenplan: 30 minuten data kwaliteit check
Je hoeft niet alles tegelijk te doen. Start met deze snelle 30-minuten check:
Stap 1: Exporteer je data (5 minuten)
Wat te doen:
- Export je belangrijkste dataset naar Excel/CSV
- Bijvoorbeeld: klantdata, productdata, of orderdata
Tools:
- CRM: Export to CSV
- Database: SQL export
- Spreadsheet: Download as Excel
Stap 2: Check volledigheid (10 minuten)
Voor elk belangrijk veld:
- Tel aantal ingevulde records
- Bereken percentage
- Noteer resultaat
Excel formule:
=COUNTA(A:A)/COUNTA(B:B)*100
Vraag jezelf af:
- Welke velden zijn kritisch?
- Wat is acceptabel percentage?
- Welke velden hebben actie nodig?
Stap 3: Zoek duplicaten (5 minuten)
In Excel:
- Selecteer kolom met unieke identifier (bijv. e-mail)
- Voorwaardelijke opmaak → Dubbele waarden markeren
- Tel aantal duplicaten
In Google Sheets:
- Data → Data cleanup → Remove duplicates (preview first!)
- Noteer aantal duplicaten
Stap 4: Check format-consistentie (5 minuten)
Kies 1-2 kritische velden:
- Telefoonnummers
- E-mailadressen
- Postcodes
Check:
- Hoeveel verschillende formats zie je?
- Wat is het gewenste format?
- Hoeveel records moet je corrigeren?
Stap 5: Check actualiteit (5 minuten)
Kijk naar:
- Laatste update datum per record
- Bereken gemiddelde leeftijd
- Identificeer verouderde records
Excel formule:
=VANDAAG()-A2
Resultaat: Je data kwaliteit score
Bereken je totaal score:
- Volledigheid: Gemiddelde over kritische velden
- Duplicaten: 100% - duplicaten percentage
- Format: Percentage met correct format
- Actualiteit: Percentage < 6 maanden oud
- Errors: 100% - error rate
Totaal score = Gemiddelde van alle 5 metrieken
Interpretatie:
- 90-100%: Uitstekend (maintain)
- 70-90%: Goed (minor improvements)
- 50-70%: Matig (actie plan maken)
- <50%: Problematisch (directe actie nodig)
Real-world voorbeelden
Voorbeeld 1: Webshop klantdata
Situatie: E-commerce bedrijf met 10.000 klanten, klachten over bounced e-mails.
Metingen:
-
Volledigheid:
- E-mail: 98% ✓
- Telefoonnummer: 45% ✗
- Adres: 92% ✓
-
Duplicaten: 12% ✗ (veel klanten met meerdere accounts)
-
Format:
- E-mail: 85% ✓ (150 invalid formats)
- Telefoon: 60% ✗ (verschillende formaten)
-
Actualiteit: 65% < 1 jaar oud ✓
-
Errors: 8% bounce rate bij laatste mailing ✗
Totaal score: 70% (matig)
Actie plan:
- Deduplicatie: Merge dubbele accounts → +10%
- E-mail validatie bij checkout → +5%
- Format normalisatie telefoonnummers → +10%
Resultaat na 2 maanden: 85% (goed)
Voorbeeld 2: B2B CRM data
Situatie: Consultancy bureau met 500 bedrijven in CRM, sales klaagt dat contactpersonen niet kloppen.
Metingen:
-
Volledigheid:
- Bedrijfsnaam: 100% ✓
- Contactpersoon: 90% ✓
- Functietitel: 55% ✗
- Directe telefoon: 40% ✗
-
Duplicaten: 5% ✓ (acceptabel)
-
Format:
- Telefoonnummer: 70% ✗
- E-mail: 95% ✓
-
Actualiteit: 40% < 6 maanden oud ✗ (mensen wisselen van baan)
-
Errors: 15% bounced e-mails ✗
Totaal score: 65% (matig)
Actie plan:
- Implementeer "laatste verificatie" proces bij sales call
- Automatische check: e-mail bounce → markeer voor verificatie
- Kwartaal check oude records
- Verplicht functietitel bij invoer nieuw contact
Resultaat na 3 maanden: 82% (goed)
Voorbeeld 3: Productdata webshop
Situatie: Online retailer met 2.000 producten, klanten klagen over incomplete productinformatie.
Metingen:
-
Volledigheid:
- Product naam: 100% ✓
- Beschrijving: 85% ✓
- Specificaties: 45% ✗
- Productfoto's: 70% ✗
- Prijs: 100% ✓
-
Duplicaten: 2% ✓ (goed)
-
Format:
- Prijs formaat: 95% ✓
- EAN code: 60% ✗
-
Actualiteit: 80% < 3 maanden ✓
-
Errors: 5% broken image links ✗
Totaal score: 72% (goed, maar kan beter)
Actie plan:
- Incomplete producten: niet online tonen → force completion
- Bulk upload EAN codes vanuit leverancier
- Wekelijkse check broken images
- Maak specificaties verplicht per categorie
Resultaat na 1 maand: 88% (uitstekend)
Tools en templates
Je hoeft niet alles zelf te bouwen. Hier zijn tools die helpen:
Gratis tools
Excel/Google Sheets:
- Voorwaardelijke opmaak voor duplicaten
- Formules voor volledigheid checks
- Pivot tables voor overzichten
Voordelen:
- Gratis
- Iedereen kent het
- Snel om mee te starten
Nadelen:
- Handmatig werk
- Niet schaalbaar
- Geen automatisering
Low-code tools
Airtable / Notion:
- Formule velden voor kwaliteit checks
- Views voor filtering
- Automations voor alerts
Voordelen:
- Gebruiksvriendelijk
- Goede visualisatie
- Basis automatisering
Nadelen:
- Beperkte schaalbaarheid
- Kost geld bij veel data
Data quality tools
Open source:
- Great Expectations (Python)
- DataCleaner
- OpenRefine
Commercial:
- Trifacta
- Talend Data Quality
- Informatica
Voordelen:
- Uitgebreid
- Veel automatisering
- Schaalbaar
Nadelen:
- Complexer
- Leercurve
- Kosten
Onze aanbeveling
Start simpel:
- Maand 1: Excel/Google Sheets template
- Maand 2-3: Eerste automatisering in bestaande tools
- Maand 4+: Overweeg dedicated tool als je schaalt
Template: Data kwaliteit dashboard
Maak een simpel dashboard met deze metrieken:
Weekly scorecard
| Metriek | Target | Huidig | Status | Trend | |---------|--------|--------|--------|-------| | Volledigheid | 95% | 92% | ⚠️ | ↑ | | Duplicaten | <2% | 3% | ⚠️ | → | | Format | 90% | 88% | ⚠️ | ↑ | | Actualiteit | 80% | 75% | ⚠️ | ↑ | | Error rate | <5% | 6% | ⚠️ | ↓ | | Total Score | 90% | 85% | ✓ | ↑ |
Interpretatie:
- ✓ = Goed (boven target)
- ⚠️ = Aandacht nodig (onder target)
- ✗ = Actie vereist (ver onder target)
Trends:
- ↑ = Verbeterd laatste maand
- → = Stabiel
- ↓ = Verslechterd laatste maand
Veelgemaakte vragen
Hoe vaak moet ik data kwaliteit meten?
Kort antwoord: Wekelijks voor kritische data, maandelijks voor de rest.
Langer antwoord:
- Dagelijks: Alleen voor real-time kritische data (bijv. voorraad)
- Wekelijks: Klantdata, orderdata
- Maandelijks: Productdata, stamdata
- Kwartaal: Archief data
Wat is een goede data kwaliteit score?
Kort antwoord: 85% of hoger is goed voor de meeste use cases.
Langer antwoord:
- Compliance data (AVG): 95%+ vereist
- Operationele data: 85-90% is goed
- Analytische data: 80-85% is acceptabel
- Historische data: 70-80% kan voldoende zijn
Moet ik alle velden meten?
Kort antwoord: Nee, focus op kritische velden.
Langer antwoord: Bepaal per veld:
- Kritisch: Altijd meten (bijv. e-mail, klantnaam)
- Belangrijk: Regelmatig meten (bijv. telefoonnummer)
- Nice to have: Periodiek meten (bijv. notities)
Wat als mijn score erg laag is?
Kort antwoord: Begin klein, verbeter stap voor stap.
Langer antwoord:
- Week 1: Identificeer grootste problemen
- Week 2-3: Los quick wins op (bijv. duplicaten)
- Week 4-6: Implementeer validatie bij invoer
- Maand 2-3: Systematisch opschonen bestaande data
- Continue: Monitor en onderhoud
Aan de slag
Klaar om je data kwaliteit te meten? Start vandaag:
- Kies je belangrijkste dataset (vandaag, 10 minuten)
- Doe de 30-minuten check (deze week)
- Bereken je baseline score (deze week)
- Maak een verbeterplan (volgende week)
- Meet maandelijks vooruitgang (continu)
Hulp nodig? Plan een vrijblijvend gesprek en we helpen je een data kwaliteit meetprogramma op te zetten. Binnen 2 weken heb je inzicht in je data kwaliteit en een actieplan voor verbetering.
Data kwaliteit meten hoeft niet ingewikkeld te zijn. Start met deze 5 simpele metrieken en je hebt binnen 30 minuten inzicht in je data kwaliteit. Geen data scientist nodig.