Data Management12 min read

Hoe Je Data Kwaliteit Meet (Zonder Data Scientist)

D

Data Dock

22 december 2025 · Data Consultancy

Hoe Je Data Kwaliteit Meet (Zonder Data Scientist)

"We hebben slechte data." Dat hoor je vaak. Maar wat betekent dat eigenlijk? En belangrijker nog: hoe meet je of je data goed of slecht is?

Het goede nieuws: data kwaliteit meten hoeft niet ingewikkeld te zijn. Je hebt geen data scientist, dure tools of ingewikkelde statistiek nodig. In dit artikel leer je de 5 simpele metrieken die elke organisatie moet bijhouden.

Waarom data kwaliteit meten belangrijk is

Voordat we in de metrieken duiken, eerst dit: waarom is het überhaupt belangrijk om data kwaliteit te meten?

De kosten van slechte data

Slechte data kost geld:

  • Verkeerde beslissingen op basis van onbetrouwbare cijfers
  • Verspilde tijd aan data-opschoning en correcties
  • Gemiste kansen door incomplete informatie
  • Reputatieschade door fouten naar klanten
  • Compliance-risico's (AVG, etc.)

Voorbeeld uit de praktijk:

Een webshop stuurde 2.000 klanten een e-mail naar een oud e-mailadres. Resultaat:

  • 40% bounce rate
  • E-mail reputatie beschadigd
  • Klanten geïrriteerd
  • Gemiste omzet: €15.000

De oorzaak: Geen proces om e-mailadressen actueel te houden. De oplossing: Data kwaliteit meten en verbeteren.

De waarde van goede data

Goede data levert op:

  • Betere beslissingen
  • Meer vertrouwen in cijfers
  • Snellere processen
  • Tevreden klanten
  • Compliance op orde

Het verschil:

  • Slechte data: "Deze cijfers kloppen niet, doe maar een gok"
  • Goede data: "Op basis van deze cijfers kiezen we voor optie A"

Wat is data kwaliteit eigenlijk?

Data kwaliteit heeft 5 dimensies. Onthoud ze met het acroniem CACTU:

1. Completeness (Volledigheid)

Zijn alle verplichte velden ingevuld?

Voorbeeld:

  • Klantnaam: ✓ Aanwezig
  • E-mail: ✓ Aanwezig
  • Telefoonnummer: ✗ Leeg (30% van records)
  • Adres: ✓ Aanwezig

Gevolg: Je kunt 30% van klanten niet bellen.

2. Accuracy (Juistheid)

Komen de data overeen met de werkelijkheid?

Voorbeeld:

  • Klant Jan Jansen woont in Amsterdam
  • Database zegt: Rotterdam
  • Accuracy probleem: Oude data niet geüpdatet

3. Consistency (Consistentie)

Zijn de data overal hetzelfde?

Voorbeeld:

  • CRM systeem: Telefoonnummer +31612345678
  • Boekhoudsysteem: Telefoonnummer 0612345678
  • Consistency probleem: Verschillende formaten

4. Timeliness (Actualiteit)

Zijn de data nog actueel?

Voorbeeld:

  • Klantadres: Hoofdstraat 1, Amsterdam
  • Werkelijkheid: Klant verhuisd 6 maanden geleden
  • Timeliness probleem: Verouderde data

5. Uniqueness (Uniciteit)

Geen dubbele records?

Voorbeeld:

  • Record 1: Jan Jansen, jan@email.com
  • Record 2: J. Jansen, jan.jansen@email.com
  • Uniqueness probleem: Duplicaten (misschien dezelfde persoon?)

De 5 metrieken die je moet bijhouden

Nu de praktijk: deze 5 metrieken zijn simpel te meten en geven direct inzicht in je data kwaliteit.

Metriek 1: Volledigheid per veld

Wat meet je: Percentage records waarbij een veld is ingevuld.

Hoe meet je het:

Volledigheid = (Aantal ingevulde velden / Totaal aantal records) × 100%

Praktisch voorbeeld:

Je hebt 1.000 klantrecords met deze velden:

  • Naam: 1.000 ingevuld (100%)
  • E-mail: 950 ingevuld (95%)
  • Telefoonnummer: 700 ingevuld (70%)
  • Bedrijfsnaam: 400 ingevuld (40%)

Interpretatie:

  • ✓ Naam: Prima, 100% volledig
  • ✓ E-mail: Goed, 95% volledig
  • ⚠ Telefoonnummer: Kan beter, 70% volledig
  • ✗ Bedrijfsnaam: Probleem, maar 40% volledig

Actie:

  • Maak telefoonnummer verplicht bij aanmaken nieuw record
  • Voor bestaande records: bel klanten bij volgende contact
  • Bedrijfsnaam: alleen verplicht bij zakelijke klanten

Tools:

  • Excel: =COUNTA(A:A)/COUNTA(B:B)*100
  • Google Sheets: Zelfde formule
  • SQL: SELECT COUNT(email) / COUNT(*) * 100 FROM customers

Metriek 2: Duplicaten percentage

Wat meet je: Percentage records dat mogelijk een duplicaat is.

Hoe meet je het:

Duplicaten = (Aantal dubbele records / Totaal aantal records) × 100%

Praktisch voorbeeld:

Je hebt 1.000 klantrecords. Je vindt:

  • 50 records met exact dezelfde naam en e-mail
  • 30 records met dezelfde naam maar ander e-mail
  • 20 records met verschillend geschreven naam maar zelfde e-mail

Berekening:

  • Exacte duplicaten: 50 / 1.000 = 5%
  • Mogelijke duplicaten: 30 / 1.000 = 3%
  • Totaal duplicaten risico: 5% + 3% = 8%

Interpretatie:

  • 0-2%: Goed (normale foutmarge)
  • 2-5%: Redelijk (opschonen)
  • 5-10%: Matig (actie nodig)
  • 10%: Problematisch (directe actie)

Actie:

  • Verwijder exacte duplicaten
  • Check mogelijke duplicaten handmatig
  • Implementeer duplicaat-check bij invoer

Tools:

  • Excel: Voorwaardelijke opmaak → Dubbele waarden markeren
  • Google Sheets: Data → Data cleanup → Remove duplicates
  • SQL: SELECT email, COUNT(*) FROM customers GROUP BY email HAVING COUNT(*) > 1

Metriek 3: Format-consistentie

Wat meet je: Percentage records dat het juiste format heeft.

Hoe meet je het:

Format-consistentie = (Aantal records met correct format / Totaal) × 100%

Praktisch voorbeeld:

Je hebt 1.000 telefoonnummers. Je verwacht format: +31612345678

Wat je vindt:

  • 600 records: +31612345678 ✓ (correct)
  • 200 records: 0612345678 ✗ (zonder landcode)
  • 150 records: 06-12345678 ✗ (met streepje)
  • 50 records: 31612345678 ✗ (zonder +)

Berekening: Format-consistentie = 600 / 1.000 = 60%

Interpretatie:

  • 90-100%: Uitstekend
  • 70-90%: Goed
  • 50-70%: Matig (opschonen)
  • <50%: Problematisch

Actie:

  • Normaliseer alle nummers naar +31612345678 format
  • Implementeer format-validatie bij invoer
  • Train team op correct format

Tools:

  • Excel: Gebruik formules om format te checken
  • Google Sheets: =REGEXMATCH(A2, "^\+31[0-9]{9}$")
  • SQL: SELECT * FROM customers WHERE phone NOT LIKE '+31%'

Metriek 4: Actualiteit per dataset

Wat meet je: Gemiddelde leeftijd van je data.

Hoe meet je het:

Gemiddelde leeftijd = (Vandaag - Laatste update datum) / Aantal records

Praktisch voorbeeld:

Je hebt 1.000 klantrecords:

  • 300 records: <3 maanden oud (recent)
  • 400 records: 3-12 maanden oud (redelijk)
  • 200 records: 1-2 jaar oud (verouderd)
  • 100 records: >2 jaar oud (zeer verouderd)

Berekening:

  • Recent: 30%
  • Redelijk actueel: 40%
  • Verouderd: 30%

Interpretatie per use case:

Marketing:

  • <3 maanden: Goed
  • 3-6 maanden: Opfrissen
  • 6 maanden: Verifiëren

CRM:

  • <6 maanden: Goed
  • 6-12 maanden: Check bij contact
  • 12 maanden: Verifiëren nodig

Actie:

  • Stel update-frequentie per dataset
  • Implementeer "laatste check" veld
  • Verifieer oude records bij contact

Tools:

  • Excel: =VANDAAG()-A2 (aantal dagen sinds update)
  • Google Sheets: =TODAY()-A2
  • SQL: SELECT AVG(DATEDIFF(NOW(), updated_at)) FROM customers

Metriek 5: Error rate

Wat meet je: Percentage records met bekende fouten.

Hoe meet je het:

Error rate = (Aantal records met fouten / Totaal aantal records) × 100%

Praktisch voorbeeld:

Je checkt 1.000 e-mailadressen:

  • 920 records: Geldig e-mailadres ✓
  • 50 records: Invalid format (geen @) ✗
  • 30 records: Bounce bij laatste mailing ✗

Berekening: Error rate = (50 + 30) / 1.000 = 8%

Interpretatie:

  • 0-2%: Uitstekend
  • 2-5%: Goed
  • 5-10%: Matig (actie nodig)
  • 10%: Problematisch

Actie:

  • Corrigeer bekende fouten
  • Implementeer validatie bij invoer
  • Monitor bounce rates

Tools:

  • Email validatie: EmailListVerify, ZeroBounce
  • Excel: =ALS(VINDTX("@";A2)=FOUT;"Invalid";"Valid")
  • SQL: SELECT * FROM customers WHERE email NOT LIKE '%@%.%'

Praktisch stappenplan: 30 minuten data kwaliteit check

Je hoeft niet alles tegelijk te doen. Start met deze snelle 30-minuten check:

Stap 1: Exporteer je data (5 minuten)

Wat te doen:

  • Export je belangrijkste dataset naar Excel/CSV
  • Bijvoorbeeld: klantdata, productdata, of orderdata

Tools:

  • CRM: Export to CSV
  • Database: SQL export
  • Spreadsheet: Download as Excel

Stap 2: Check volledigheid (10 minuten)

Voor elk belangrijk veld:

  1. Tel aantal ingevulde records
  2. Bereken percentage
  3. Noteer resultaat

Excel formule:

=COUNTA(A:A)/COUNTA(B:B)*100

Vraag jezelf af:

  • Welke velden zijn kritisch?
  • Wat is acceptabel percentage?
  • Welke velden hebben actie nodig?

Stap 3: Zoek duplicaten (5 minuten)

In Excel:

  1. Selecteer kolom met unieke identifier (bijv. e-mail)
  2. Voorwaardelijke opmaak → Dubbele waarden markeren
  3. Tel aantal duplicaten

In Google Sheets:

  1. Data → Data cleanup → Remove duplicates (preview first!)
  2. Noteer aantal duplicaten

Stap 4: Check format-consistentie (5 minuten)

Kies 1-2 kritische velden:

  • Telefoonnummers
  • E-mailadressen
  • Postcodes

Check:

  • Hoeveel verschillende formats zie je?
  • Wat is het gewenste format?
  • Hoeveel records moet je corrigeren?

Stap 5: Check actualiteit (5 minuten)

Kijk naar:

  • Laatste update datum per record
  • Bereken gemiddelde leeftijd
  • Identificeer verouderde records

Excel formule:

=VANDAAG()-A2

Resultaat: Je data kwaliteit score

Bereken je totaal score:

  1. Volledigheid: Gemiddelde over kritische velden
  2. Duplicaten: 100% - duplicaten percentage
  3. Format: Percentage met correct format
  4. Actualiteit: Percentage < 6 maanden oud
  5. Errors: 100% - error rate

Totaal score = Gemiddelde van alle 5 metrieken

Interpretatie:

  • 90-100%: Uitstekend (maintain)
  • 70-90%: Goed (minor improvements)
  • 50-70%: Matig (actie plan maken)
  • <50%: Problematisch (directe actie nodig)

Real-world voorbeelden

Voorbeeld 1: Webshop klantdata

Situatie: E-commerce bedrijf met 10.000 klanten, klachten over bounced e-mails.

Metingen:

  1. Volledigheid:

    • E-mail: 98% ✓
    • Telefoonnummer: 45% ✗
    • Adres: 92% ✓
  2. Duplicaten: 12% ✗ (veel klanten met meerdere accounts)

  3. Format:

    • E-mail: 85% ✓ (150 invalid formats)
    • Telefoon: 60% ✗ (verschillende formaten)
  4. Actualiteit: 65% < 1 jaar oud ✓

  5. Errors: 8% bounce rate bij laatste mailing ✗

Totaal score: 70% (matig)

Actie plan:

  1. Deduplicatie: Merge dubbele accounts → +10%
  2. E-mail validatie bij checkout → +5%
  3. Format normalisatie telefoonnummers → +10%

Resultaat na 2 maanden: 85% (goed)

Voorbeeld 2: B2B CRM data

Situatie: Consultancy bureau met 500 bedrijven in CRM, sales klaagt dat contactpersonen niet kloppen.

Metingen:

  1. Volledigheid:

    • Bedrijfsnaam: 100% ✓
    • Contactpersoon: 90% ✓
    • Functietitel: 55% ✗
    • Directe telefoon: 40% ✗
  2. Duplicaten: 5% ✓ (acceptabel)

  3. Format:

    • Telefoonnummer: 70% ✗
    • E-mail: 95% ✓
  4. Actualiteit: 40% < 6 maanden oud ✗ (mensen wisselen van baan)

  5. Errors: 15% bounced e-mails ✗

Totaal score: 65% (matig)

Actie plan:

  1. Implementeer "laatste verificatie" proces bij sales call
  2. Automatische check: e-mail bounce → markeer voor verificatie
  3. Kwartaal check oude records
  4. Verplicht functietitel bij invoer nieuw contact

Resultaat na 3 maanden: 82% (goed)

Voorbeeld 3: Productdata webshop

Situatie: Online retailer met 2.000 producten, klanten klagen over incomplete productinformatie.

Metingen:

  1. Volledigheid:

    • Product naam: 100% ✓
    • Beschrijving: 85% ✓
    • Specificaties: 45% ✗
    • Productfoto's: 70% ✗
    • Prijs: 100% ✓
  2. Duplicaten: 2% ✓ (goed)

  3. Format:

    • Prijs formaat: 95% ✓
    • EAN code: 60% ✗
  4. Actualiteit: 80% < 3 maanden ✓

  5. Errors: 5% broken image links ✗

Totaal score: 72% (goed, maar kan beter)

Actie plan:

  1. Incomplete producten: niet online tonen → force completion
  2. Bulk upload EAN codes vanuit leverancier
  3. Wekelijkse check broken images
  4. Maak specificaties verplicht per categorie

Resultaat na 1 maand: 88% (uitstekend)

Tools en templates

Je hoeft niet alles zelf te bouwen. Hier zijn tools die helpen:

Gratis tools

Excel/Google Sheets:

  • Voorwaardelijke opmaak voor duplicaten
  • Formules voor volledigheid checks
  • Pivot tables voor overzichten

Voordelen:

  • Gratis
  • Iedereen kent het
  • Snel om mee te starten

Nadelen:

  • Handmatig werk
  • Niet schaalbaar
  • Geen automatisering

Low-code tools

Airtable / Notion:

  • Formule velden voor kwaliteit checks
  • Views voor filtering
  • Automations voor alerts

Voordelen:

  • Gebruiksvriendelijk
  • Goede visualisatie
  • Basis automatisering

Nadelen:

  • Beperkte schaalbaarheid
  • Kost geld bij veel data

Data quality tools

Open source:

  • Great Expectations (Python)
  • DataCleaner
  • OpenRefine

Commercial:

  • Trifacta
  • Talend Data Quality
  • Informatica

Voordelen:

  • Uitgebreid
  • Veel automatisering
  • Schaalbaar

Nadelen:

  • Complexer
  • Leercurve
  • Kosten

Onze aanbeveling

Start simpel:

  1. Maand 1: Excel/Google Sheets template
  2. Maand 2-3: Eerste automatisering in bestaande tools
  3. Maand 4+: Overweeg dedicated tool als je schaalt

Template: Data kwaliteit dashboard

Maak een simpel dashboard met deze metrieken:

Weekly scorecard

| Metriek | Target | Huidig | Status | Trend | |---------|--------|--------|--------|-------| | Volledigheid | 95% | 92% | ⚠️ | ↑ | | Duplicaten | <2% | 3% | ⚠️ | → | | Format | 90% | 88% | ⚠️ | ↑ | | Actualiteit | 80% | 75% | ⚠️ | ↑ | | Error rate | <5% | 6% | ⚠️ | ↓ | | Total Score | 90% | 85% | | |

Interpretatie:

  • ✓ = Goed (boven target)
  • ⚠️ = Aandacht nodig (onder target)
  • ✗ = Actie vereist (ver onder target)

Trends:

  • ↑ = Verbeterd laatste maand
  • → = Stabiel
  • ↓ = Verslechterd laatste maand

Veelgemaakte vragen

Hoe vaak moet ik data kwaliteit meten?

Kort antwoord: Wekelijks voor kritische data, maandelijks voor de rest.

Langer antwoord:

  • Dagelijks: Alleen voor real-time kritische data (bijv. voorraad)
  • Wekelijks: Klantdata, orderdata
  • Maandelijks: Productdata, stamdata
  • Kwartaal: Archief data

Wat is een goede data kwaliteit score?

Kort antwoord: 85% of hoger is goed voor de meeste use cases.

Langer antwoord:

  • Compliance data (AVG): 95%+ vereist
  • Operationele data: 85-90% is goed
  • Analytische data: 80-85% is acceptabel
  • Historische data: 70-80% kan voldoende zijn

Moet ik alle velden meten?

Kort antwoord: Nee, focus op kritische velden.

Langer antwoord: Bepaal per veld:

  • Kritisch: Altijd meten (bijv. e-mail, klantnaam)
  • Belangrijk: Regelmatig meten (bijv. telefoonnummer)
  • Nice to have: Periodiek meten (bijv. notities)

Wat als mijn score erg laag is?

Kort antwoord: Begin klein, verbeter stap voor stap.

Langer antwoord:

  1. Week 1: Identificeer grootste problemen
  2. Week 2-3: Los quick wins op (bijv. duplicaten)
  3. Week 4-6: Implementeer validatie bij invoer
  4. Maand 2-3: Systematisch opschonen bestaande data
  5. Continue: Monitor en onderhoud

Aan de slag

Klaar om je data kwaliteit te meten? Start vandaag:

  1. Kies je belangrijkste dataset (vandaag, 10 minuten)
  2. Doe de 30-minuten check (deze week)
  3. Bereken je baseline score (deze week)
  4. Maak een verbeterplan (volgende week)
  5. Meet maandelijks vooruitgang (continu)

Hulp nodig? Plan een vrijblijvend gesprek en we helpen je een data kwaliteit meetprogramma op te zetten. Binnen 2 weken heb je inzicht in je data kwaliteit en een actieplan voor verbetering.


Data kwaliteit meten hoeft niet ingewikkeld te zijn. Start met deze 5 simpele metrieken en je hebt binnen 30 minuten inzicht in je data kwaliteit. Geen data scientist nodig.

Hulp nodig met je data?

We helpen je graag. Plan een vrijblijvend gesprek en we bespreken hoe we je kunnen helpen.

Plan een gesprek