Hoe Meet Je Data Kwaliteit Zonder Data Scientist?
Data kwaliteit meten hoeft niet ingewikkeld te zijn. Je hebt geen data scientist, dure tools of ingewikkelde statistiek nodig. In dit artikel leer je 7 praktische metrics die je vandaag kunt gebruiken, zonder technische expertise.
Waarom data kwaliteit meten belangrijk is
Slechte data kost bedrijven gemiddeld 15-25% van hun omzet. Verkeerde beslissingen, verspilde tijd, gemiste kansen en compliance-risico's zijn het gevolg. Goede data daarentegen levert betere beslissingen, meer vertrouwen en snellere processen op.
De 5 dimensies van data kwaliteit (CACTU)
Data kwaliteit heeft 5 dimensies. Onthoud ze met het acroniem CACTU:
1. Completeness (Volledigheid)
Zijn alle verplichte velden ingevuld? Bijvoorbeeld: 30% van klantrecords heeft geen telefoonnummer, waardoor je deze klanten niet kunt bellen.
2. Accuracy (Juistheid)
Komen de data overeen met de werkelijkheid? Een klant woont in Amsterdam, maar de database zegt Rotterdam - dit is een accuracy probleem.
3. Consistency (Consistentie)
Zijn de data overal hetzelfde? Telefoonnummer +31612345678 in CRM, maar 0612345678 in boekhoudsysteem - verschillende formaten.
4. Timeliness (Actualiteit)
Zijn de data nog actueel? Een klantadres dat 6 maanden geleden is veranderd maar nog niet geüpdatet in het systeem.
5. Uniqueness (Uniciteit)
Geen dubbele records? Record 1: Jan Jansen, jan@email.com. Record 2: J. Jansen, jan.jansen@email.com - mogelijk duplicaten.
De 7 praktische metrics die je moet bijhouden
Metriek 1: Volledigheid per veld
Wat meet je: Percentage records waarbij een veld is ingevuld.
Hoe meet je het:
Volledigheid = (Aantal ingevulde velden / Totaal aantal records) × 100%
Praktisch voorbeeld: Je hebt 1.000 klantrecords:
- Naam: 1.000 ingevuld (100%) ✓
- E-mail: 950 ingevuld (95%) ✓
- Telefoonnummer: 700 ingevuld (70%) ⚠️
- Bedrijfsnaam: 400 ingevuld (40%) ✗
Tools:
- Excel:
=COUNTA(A:A)/COUNTA(B:B)*100 - Google Sheets: Zelfde formule
- SQL:
SELECT COUNT(email) / COUNT(*) * 100 FROM customers
Metriek 2: Duplicaten percentage
Wat meet je: Percentage records dat mogelijk een duplicaat is.
Hoe meet je het:
Duplicaten = (Aantal dubbele records / Totaal aantal records) × 100%
Interpretatie:
- 0-2%: Goed (normale foutmarge)
- 2-5%: Redelijk (opschonen)
- 5-10%: Matig (actie nodig)
-
10%: Problematisch (directe actie)
Tools:
- Excel: Voorwaardelijke opmaak → Dubbele waarden markeren
- Google Sheets: Data → Data cleanup → Remove duplicates
- SQL:
SELECT email, COUNT(*) FROM customers GROUP BY email HAVING COUNT(*) > 1
Metriek 3: Format-consistentie
Wat meet je: Percentage records dat het juiste format heeft.
Praktisch voorbeeld: Je hebt 1.000 telefoonnummers. Je verwacht format: +31612345678
- 600 records: +31612345678 ✓ (correct)
- 200 records: 0612345678 ✗ (zonder landcode)
- 150 records: 06-12345678 ✗ (met streepje)
- 50 records: 31612345678 ✗ (zonder +)
Format-consistentie = 600 / 1.000 = 60%
Tools:
- Excel: Gebruik formules om format te checken
- Google Sheets:
=REGEXMATCH(A2, "^\+31[0-9]{9}$") - SQL:
SELECT * FROM customers WHERE phone NOT LIKE '+31%'
Metriek 4: Actualiteit per dataset
Wat meet je: Gemiddelde leeftijd van je data.
Hoe meet je het:
Gemiddelde leeftijd = (Vandaag - Laatste update datum) / Aantal records
Interpretatie per use case:
Marketing:
- <3 maanden: Goed
- 3-6 maanden: Opfrissen
-
6 maanden: Verifiëren
CRM:
- <6 maanden: Goed
- 6-12 maanden: Check bij contact
-
12 maanden: Verifiëren nodig
Tools:
- Excel:
=VANDAAG()-A2(aantal dagen sinds update) - Google Sheets:
=TODAY()-A2 - SQL:
SELECT AVG(DATEDIFF(NOW(), updated_at)) FROM customers
Metriek 5: Error rate
Wat meet je: Percentage records met bekende fouten.
Praktisch voorbeeld: Je checkt 1.000 e-mailadressen:
- 920 records: Geldig e-mailadres ✓
- 50 records: Invalid format (geen @) ✗
- 30 records: Bounce bij laatste mailing ✗
Error rate = (50 + 30) / 1.000 = 8%
Interpretatie:
- 0-2%: Uitstekend
- 2-5%: Goed
- 5-10%: Matig (actie nodig)
-
10%: Problematisch
Tools:
- Email validatie: EmailListVerify, ZeroBounce
- Excel:
=ALS(VINDTX("@";A2)=FOUT;"Invalid";"Valid") - SQL:
SELECT * FROM customers WHERE email NOT LIKE '%@%.%'
Metriek 6: Validiteit (Business Rules)
Wat meet je: Percentage records dat voldoet aan business regels.
Voorbeelden van business rules:
- Prijs moet > 0 zijn
- Orderdatum moet in het verleden liggen
- Klant moet 18+ zijn voor bepaalde producten
- Postcode moet geldig Nederlands format hebben
Hoe meet je het: Tel het aantal records dat voldoet aan alle business rules, deel door totaal.
Tools:
- Excel: IF statements met meerdere voorwaarden
- Google Sheets:
=IF(AND(A2>0, B2< TODAY()), "Valid", "Invalid") - SQL:
SELECT COUNT(*) FROM orders WHERE price > 0 AND order_date <= NOW()
Metriek 7: Referentiële integriteit
Wat meet je: Percentage records met geldige referenties naar andere tabellen.
Voorbeeld:
- Order verwijst naar klant ID 12345
- Klant ID 12345 bestaat niet in klantentabel
- Dit is een referentiële integriteit probleem
Hoe meet je het:
Referentiële integriteit = (Aantal records met geldige referenties / Totaal) × 100%
Tools:
- SQL: LEFT JOIN om ontbrekende referenties te vinden
- Excel: VLOOKUP om te checken of referentie bestaat
Praktisch stappenplan: 30 minuten data kwaliteit check
Stap 1: Exporteer je data (5 minuten)
Export je belangrijkste dataset naar Excel/CSV. Bijvoorbeeld: klantdata, productdata, of orderdata.
Stap 2: Check volledigheid (10 minuten)
Voor elk belangrijk veld:
- Tel aantal ingevulde records
- Bereken percentage
- Noteer resultaat
Excel formule: =COUNTA(A:A)/COUNTA(B:B)*100
Stap 3: Zoek duplicaten (5 minuten)
In Excel: Selecteer kolom met unieke identifier → Voorwaardelijke opmaak → Dubbele waarden markeren.
Stap 4: Check format-consistentie (5 minuten)
Kies 1-2 kritische velden (telefoonnummers, e-mailadressen, postcodes) en check hoeveel verschillende formats je ziet.
Stap 5: Check actualiteit (5 minuten)
Kijk naar laatste update datum per record en bereken gemiddelde leeftijd.
Excel formule: =VANDAAG()-A2
Je data kwaliteit score berekenen
Bereken je totaal score:
- Volledigheid: Gemiddelde over kritische velden
- Duplicaten: 100% - duplicaten percentage
- Format: Percentage met correct format
- Actualiteit: Percentage < 6 maanden oud
- Errors: 100% - error rate
- Validiteit: Percentage dat voldoet aan business rules
- Referentiële integriteit: Percentage met geldige referenties
Totaal score = Gemiddelde van alle 7 metrieken
Interpretatie:
- 90-100%: Uitstekend (maintain)
- 70-90%: Goed (minor improvements)
- 50-70%: Matig (actie plan maken)
- <50%: Problematisch (directe actie nodig)
Real-world voorbeeld: Webshop klantdata
Situatie: E-commerce bedrijf met 10.000 klanten, klachten over bounced e-mails.
Metingen:
- Volledigheid: E-mail 98% ✓, Telefoonnummer 45% ✗, Adres 92% ✓
- Duplicaten: 12% ✗ (veel klanten met meerdere accounts)
- Format: E-mail 85% ✓, Telefoon 60% ✗
- Actualiteit: 65% < 1 jaar oud ✓
- Errors: 8% bounce rate ✗
Totaal score: 70% (matig)
Actie plan:
- Deduplicatie: Merge dubbele accounts → +10%
- E-mail validatie bij checkout → +5%
- Format normalisatie telefoonnummers → +10%
Resultaat na 2 maanden: 85% (goed)
Tools en templates
Gratis tools
Excel/Google Sheets:
- Voorwaardelijke opmaak voor duplicaten
- Formules voor volledigheid checks
- Pivot tables voor overzichten
Low-code tools
Airtable / Notion:
- Formule velden voor kwaliteit checks
- Views voor filtering
- Automations voor alerts
Data quality tools
Open source:
- Great Expectations (Python)
- DataCleaner
- OpenRefine
Commercial:
- Trifacta
- Talend Data Quality
- Informatica
Veelgemaakte vragen
Hoe vaak moet ik data kwaliteit meten?
Kort antwoord: Wekelijks voor kritische data, maandelijks voor de rest.
Langer antwoord:
- Dagelijks: Alleen voor real-time kritische data (bijv. voorraad)
- Wekelijks: Klantdata, orderdata
- Maandelijks: Productdata, stamdata
- Kwartaal: Archief data
Wat is een goede data kwaliteit score?
Kort antwoord: 85% of hoger is goed voor de meeste use cases.
Langer antwoord:
- Compliance data (AVG): 95%+ vereist
- Operationele data: 85-90% is goed
- Analytische data: 80-85% is acceptabel
- Historische data: 70-80% kan voldoende zijn
Moet ik alle velden meten?
Kort antwoord: Nee, focus op kritische velden.
Langer antwoord: Bepaal per veld:
- Kritisch: Altijd meten (bijv. e-mail, klantnaam)
- Belangrijk: Regelmatig meten (bijv. telefoonnummer)
- Nice to have: Periodiek meten (bijv. notities)
Wat als mijn score erg laag is?
Kort antwoord: Begin klein, verbeter stap voor stap.
Langer antwoord:
- Week 1: Identificeer grootste problemen
- Week 2-3: Los quick wins op (bijv. duplicaten)
- Week 4-6: Implementeer validatie bij invoer
- Maand 2-3: Systematisch opschonen bestaande data
- Continue: Monitor en onderhoud
Aan de slag
Klaar om je data kwaliteit te meten? Start vandaag:
- Kies je belangrijkste dataset (vandaag, 10 minuten)
- Doe de 30-minuten check (deze week)
- Bereken je baseline score (deze week)
- Maak een verbeterplan (volgende week)
- Meet maandelijks vooruitgang (continu)
Hulp nodig? Plan een vrijblijvend gesprek en we helpen je een data kwaliteit meetprogramma op te zetten. Binnen 2 weken heb je inzicht in je data kwaliteit en een actieplan voor verbetering.
Data kwaliteit meten hoeft niet ingewikkeld te zijn. Start met deze 7 simpele metrics en je hebt binnen 30 minuten inzicht in je data kwaliteit. Geen data scientist nodig.