ALM - Develop - Duplicate Detection

Introductie

Duplicate Detection is het proces waarbij dubbele records binnen een systeem worden geïdentificeerd en beheerd.

Het doel is het verbeteren van datakwaliteit en het voorkomen van inconsistenties in de dataset.

voorkomen van dubbele records
signaleren van mogelijke duplicaten
ondersteunen van gebruikers bij opschonen data

1. Doel

Duplicate Detection zorgt voor betrouwbare en consistente data binnen de oplossing.

Zonder Duplicate Detection ontstaan risico’s:

dubbele klanten, contacten of entiteiten
foutieve rapportages
inefficiënte processen
dubbele communicatie richting eindgebruikers of klanten

Belangrijk:
Duplicate Detection is een ondersteunende controle, geen harde validatie.

2. Wanneer gebruiken?

Gebruik wanneer:

records uniek horen te zijn (bijv. personen, organisaties)
gebruikers handmatig data invoeren
imports of integraties plaatsvinden
datakwaliteit kritisch is voor rapportages

Niet geschikt wanneer:

harde blokkade vereist is → gebruik alternate keys of plugins
complexe validatie nodig is
geavanceerde matching (fuzzy / AI) vereist is

3. Werking

Duplicate Detection werkt op basis van vooraf gedefinieerde criteria waarmee records met elkaar worden vergeleken.

Detectie vindt plaats tijdens:

aanmaken van records
wijzigen van records
data import
periodieke controles (jobs)

Wanneer een mogelijke match wordt gevonden:

wordt een waarschuwing getoond
kan de gebruiker beslissen om door te gaan
kunnen records later worden samengevoegd

4. Configuratie

4.1 Regels definiëren

Duplicate Detection wordt geconfigureerd via regels (rules) waarin wordt vastgelegd wanneer twee records als duplicaat worden beschouwd.

Per regel definieer je:

entiteit (bijv. Contact)
velden (bijv. Email, Telefoon)
vergelijkingsmethode

Vergelijkingsopties

Exact match
Gedeeltelijke match (begin/einde tekst)

👉 Meerdere criteria worden gecombineerd (AND-logica).

4.2 Instellingen

exclude inactive records
case-insensitive matching
ignore empty values

4.3 Activeren

regels moeten gepubliceerd worden om actief te zijn
alleen actieve regels worden toegepast tijdens controles

5. Gebruik tijdens invoer

Tijdens data-invoer wordt duplicate detection automatisch uitgevoerd.

controle bij opslaan van records
directe feedback aan gebruiker

Gebruikersopties:

opslaan negeren
duplicaat bekijken
later samenvoegen

6. Periodieke controle (Duplicate Detection Jobs)

Naast real-time controle kunnen duplicaten ook batchmatig worden opgespoord.

Gebruik van jobs:

controle over bestaande data
opschonen van legacy datasets
controle na imports

Configuratie van een job:

selecteer entiteit
selecteer dataset (bijv. view)
gebruik actieve regels
start detectieproces

Scheduling

Duplicate Detection Jobs kunnen handmatig of periodiek worden uitgevoerd.

handmatig starten (ad-hoc controle)
gepland uitvoeren (bijv. nacht batches)

👉 Scheduling wordt vaak gebruikt voor grote datasets of periodieke datakwaliteitscontroles.

7. Resultaten & opvolging

overzicht van mogelijke duplicaten
analyse van matches
handmatig samenvoegen

Samenvoegen

selecteer een “master record”
combineer data
behoud relaties en historie

8. Richtlijnen

Criteria

gebruik meerdere velden (bijv. Email + Telefoon)
vermijd alleen naam-gebaseerde matching
gebruik zo uniek mogelijke kenmerken

Scope

beperk aantal actieve regels
voorkom overlap tussen regels

Performance

voorkom brede of zware matching
test impact op grote datasets

Beheer

test in DEV/TST
monitor gebruik en gedrag
pas regels aan op basis van data-evolutie

9. Veelgemaakte fouten

matchen alleen op naam
te veel regels tegelijk actief
regels niet publiceren
overlap met andere validaties
te strikte rules die gebruikers blokkeren

10. Positionering

Duplicate Detection maakt onderdeel uit van de data quality laag binnen de oplossing.

eerste controlelaag (soft validation)
ondersteuning voor gebruikers
aanvulling op business logic

👉 Voor harde validatie:

Alternate Keys
Plugins / server-side logic

11. Samenvatting

Duplicate Detection helpt bij het identificeren en beheren van dubbele records.

verbetert datakwaliteit
voorkomt fouten
ondersteunt gebruikers

👉 Combineer real-time checks met periodieke jobs voor optimale datakwaliteit.

🧹 Duplicate Detection

Introductie

1. Doel

Zonder Duplicate Detection ontstaan risico’s:

2. Wanneer gebruiken?

Gebruik wanneer:

Niet geschikt wanneer:

3. Werking

4. Configuratie

4.1 Regels definiëren

Vergelijkingsopties

4.2 Instellingen

4.3 Activeren

5. Gebruik tijdens invoer

Gebruikersopties:

6. Periodieke controle (Duplicate Detection Jobs)

Gebruik van jobs:

Configuratie van een job:

Scheduling

7. Resultaten & opvolging

Samenvoegen

8. Richtlijnen

Criteria

Scope

Performance

Beheer

9. Veelgemaakte fouten

10. Positionering

11. Samenvatting