Der Sherlock Holmes für Ihre Stammdaten: Dubletten erkennen mit Datascience-Lösung

Dubletten sind ein Geschäftsrisiko – wir lösen es mit Datascience: Doppelte Datensätze in SAP-Stammdaten sind mehr als nur ein Schönheitsfehler. Sie verursachen Verwirrung im Vertrieb, fehlerhafte Analysen, ineffiziente Prozesse und hohe Kosten. Unsere selbst entwickelte Datascience-gestützte Dublettenerkennung identifiziert zuverlässig doppelte und sogar fehlerhafte Einträge – auch bei großen Datenmengen.


Wer kennt es nicht: ein kleiner Tippfehler – große Verwirrung. Bei der Eingabe von Kundendaten wird aus einem „a“ schnell ein „s“, und schon ist ein vermeintlich neuer Kunde im System angelegt – obwohl er längst existiert. Die Folge: Dubletten.

Warum Dubletten Ihre Datenqualität gefährden

Doppelte Datensätze in SAP-Stammdaten – ob bei Kunden, Lieferanten oder Materialien – führen zu Inkonsistenzen, fehlerhaften Auswertungen und unnötigem Mehraufwand. Besonders kritisch wird es, wenn unterschiedliche Abteilungen mit verschiedenen Versionen derselben Entität arbeiten. Das kostet Zeit, Geld und im schlimmsten Fall falsche Entscheidungen sowie Vertrauen.

Unsere Lösung: Datascience-gestützte Dublettenerkennung für SAP-Systeme

Wir haben in der Business Unit  Data Analytics & AI eine intelligente Lösung entwickelt, die die Prüfung der SAP-Stammdaten auf Dubletten automatisiert. Der Clou: Der Einsatz von Datascience ermöglicht es, auch fehlerhafte oder leicht abweichende Einträge zuverlässig zu erkennen.


So funktioniert’s – jetzt mehr erfahren

Die Herausforderung bei der Dublettenerkennung liegt in der schieren Menge möglicher Vergleichspaare: Für N Einträge ergeben sich etwa N²/2 Kombinationen. Das bedeutet: Die zehnfache Menge an Stammdateneinträgen hat die 100-fache Menge an Vergleichspaaren zur Folge. Um diese Komplexität zu reduzieren, setzen wir auf einen zweistufigen Ansatz:

  1. Vektorisierung von Text, Kategorien und Zahlenwerten: Alle Informationen in Form von Text (Name, Beschreibung), Kategorien (Kundengruppe, Materialart) und Zahlenwerten (Abmessungen, Gewicht) werden auf einen konsistenten Vektor abgebildet. Diese vektorisierte Information erlaubt es uns, ultraeffiziente Lineare-Algebra-Routinen zu verwenden, um jeden mit jedem Vektor, also jeden mit jedem Stammdateneintrag, zu vergleichen.
  2. Preclustering: Sofern möglich und notwendig, bilden wir vorab Cluster, innerhalb derer wir nach Dubletten suchen. So wird die Komplexität und damit auch der Rechenaufwand erheblich reduziert.

Optional können wir Locality-Sensitive-Hashing (LSH) nutzen: Dabei handelt es sich um ein mathematisches Verfahren, mit dem die Dimensionalität der vektorisierten Information – die schnell in die Zehntausende gehen kann – reduziert werden kann. Ähnlichkeitsbeziehungen zwischen je zwei Vektoren bleiben dabei erhalten. So lässt sich der Rechenaufwand um Größenordnungen reduzieren, ohne dass die Genauigkeit der Dublettensuche darunter leidet.


Das Ergebnis: saubere Daten, klare Entscheidungen

Unsere Lösung liefert eine Liste potenzieller Dubletten, die von menschlichen Anwendern überprüft und bearbeitet werden können.

Ihr Nutzen auf einen Blick:

  • Höhere Datenqualität: Konsistente und verlässliche Stammdaten
  • Effizientere Prozesse: Weniger manuelle Nacharbeit
  • Bessere Entscheidungen: Auf Basis sauberer Daten
  • Skalierbarkeit: Auch bei großen Datenmengen performant

Fazit: Datascience-gestützte Dublettenerkennung – jetzt implementieren und profitieren

Dubletten sind mehr als nur ein Schönheitsfehler – sie sind ein echtes Geschäftsrisiko. Mit unserer Datascience-gestützten Lösung schaffen wir Abhilfe und sorgen für saubere, verlässliche Stammdaten. Denn nur wer seine Daten im Griff hat, kann fundierte Entscheidungen treffen.

Autor des Artikels

Dr. Kris Holtgrewe
Consultant SAP Business Intelligence

Sie brauchen
Beratung oder
haben Fragen?

Wir sind gerne für Sie da. Am besten schreiben Sie uns, wie Sie am liebsten kontaktiert werden möchten.

Kontakt Formular

Pflichtfeld*

Datenschutz(erforderlich)