🧹 Duplicate Detection

Voorkomen van dubbele records en verbeteren van datakwaliteit.

← Terug naar Develop

Introductie

Duplicate Detection is het proces waarbij dubbele records binnen een systeem worden geïdentificeerd en beheerd.

Het doel is het verbeteren van datakwaliteit en het voorkomen van inconsistenties in de dataset.

  • voorkomen van dubbele records
  • signaleren van mogelijke duplicaten
  • ondersteunen van gebruikers bij opschonen data

1. Doel

Duplicate Detection zorgt voor betrouwbare en consistente data binnen de oplossing.

Zonder Duplicate Detection ontstaan risico’s:

  • dubbele klanten, contacten of entiteiten
  • foutieve rapportages
  • inefficiënte processen
  • dubbele communicatie richting eindgebruikers of klanten
Belangrijk:
Duplicate Detection is een ondersteunende controle, geen harde validatie.

2. Wanneer gebruiken?

Gebruik wanneer:

  • records uniek horen te zijn (bijv. personen, organisaties)
  • gebruikers handmatig data invoeren
  • imports of integraties plaatsvinden
  • datakwaliteit kritisch is voor rapportages

Niet geschikt wanneer:

  • harde blokkade vereist is → gebruik alternate keys of plugins
  • complexe validatie nodig is
  • geavanceerde matching (fuzzy / AI) vereist is

3. Werking

Duplicate Detection werkt op basis van vooraf gedefinieerde criteria waarmee records met elkaar worden vergeleken.

Detectie vindt plaats tijdens:

  • aanmaken van records
  • wijzigen van records
  • data import
  • periodieke controles (jobs)

Wanneer een mogelijke match wordt gevonden:

  • wordt een waarschuwing getoond
  • kan de gebruiker beslissen om door te gaan
  • kunnen records later worden samengevoegd

4. Configuratie

4.1 Regels definiëren

Duplicate Detection wordt geconfigureerd via regels (rules) waarin wordt vastgelegd wanneer twee records als duplicaat worden beschouwd.

Per regel definieer je:

  • entiteit (bijv. Contact)
  • velden (bijv. Email, Telefoon)
  • vergelijkingsmethode

Vergelijkingsopties

  • Exact match
  • Gedeeltelijke match (begin/einde tekst)

👉 Meerdere criteria worden gecombineerd (AND-logica).


4.2 Instellingen

  • exclude inactive records
  • case-insensitive matching
  • ignore empty values

4.3 Activeren

  • regels moeten gepubliceerd worden om actief te zijn
  • alleen actieve regels worden toegepast tijdens controles

5. Gebruik tijdens invoer

Tijdens data-invoer wordt duplicate detection automatisch uitgevoerd.

  • controle bij opslaan van records
  • directe feedback aan gebruiker

Gebruikersopties:

  • opslaan negeren
  • duplicaat bekijken
  • later samenvoegen

6. Periodieke controle (Duplicate Detection Jobs)

Naast real-time controle kunnen duplicaten ook batchmatig worden opgespoord.

Gebruik van jobs:

  • controle over bestaande data
  • opschonen van legacy datasets
  • controle na imports

Configuratie van een job:

  • selecteer entiteit
  • selecteer dataset (bijv. view)
  • gebruik actieve regels
  • start detectieproces

Scheduling

Duplicate Detection Jobs kunnen handmatig of periodiek worden uitgevoerd.

  • handmatig starten (ad-hoc controle)
  • gepland uitvoeren (bijv. nacht batches)

👉 Scheduling wordt vaak gebruikt voor grote datasets of periodieke datakwaliteitscontroles.


7. Resultaten & opvolging

  • overzicht van mogelijke duplicaten
  • analyse van matches
  • handmatig samenvoegen

Samenvoegen

  • selecteer een “master record”
  • combineer data
  • behoud relaties en historie

8. Richtlijnen

Criteria

  • gebruik meerdere velden (bijv. Email + Telefoon)
  • vermijd alleen naam-gebaseerde matching
  • gebruik zo uniek mogelijke kenmerken

Scope

  • beperk aantal actieve regels
  • voorkom overlap tussen regels

Performance

  • voorkom brede of zware matching
  • test impact op grote datasets

Beheer

  • test in DEV/TST
  • monitor gebruik en gedrag
  • pas regels aan op basis van data-evolutie

9. Veelgemaakte fouten

  • matchen alleen op naam
  • te veel regels tegelijk actief
  • regels niet publiceren
  • overlap met andere validaties
  • te strikte rules die gebruikers blokkeren

10. Positionering

Duplicate Detection maakt onderdeel uit van de data quality laag binnen de oplossing.

  • eerste controlelaag (soft validation)
  • ondersteuning voor gebruikers
  • aanvulling op business logic

👉 Voor harde validatie:

  • Alternate Keys
  • Plugins / server-side logic

11. Samenvatting

Duplicate Detection helpt bij het identificeren en beheren van dubbele records.

  • verbetert datakwaliteit
  • voorkomt fouten
  • ondersteunt gebruikers

👉 Combineer real-time checks met periodieke jobs voor optimale datakwaliteit.