DOSP-VHR-001440 | AI-Assisted Master Data Management

Bewerk Dossier Terug

Details

Business Unit
DOSP-HGT
Kennisgroep
Centre for Applied Data Science
Beschrijving (Original)

De oplossingen voorgesteld in dit project zullen ervoor zorgen dat Vlaamse maakbedrijven meer inzichten en methodieken krijgen omtrent de kwaliteit van hun masterdata en het belang dat daaraan moet gegeven worden. Het project richt zich specifiek op kleine en middelgrote ondernemingen die over de jaren heen grote hoeveelheden masterdata hebben gecreëerd.

Masterdata zijn de niet-transactionele kerngegevens die essentieel zijn voor een organisatie met product- en materiaalinformatie en klant- en leveranciergegevens als voornaamste voorbeelden. Mede door de digitalisering nemen ook de complexiteit en de hoeveelheid te beheren masterdata-attributen toe. Dit stelt bedrijven voor de uitdaging het gebruik van masterdata beter te organiseren: nu is dit dikwijls een traag en arbeidsintensief proces waarbij vaak voor honderden velden een waarde moet worden ingegeven of waarbij data uit verschillende niet altijd onderling consistente bronnen wordt gecombineerd waardoor kwaliteitsproblemen ontstaan. Met dit project willen we meer inzichten creëren in het belang van kwalitatieve masterdata en willen we met behulp van gratis beschikbare oplossingen een aanzet geven om foutieve masterdata automatisch op te sporen én bovendien een correctie voorstellen voorzien van een begrijpbare reden hiervoor. Dit laatste moet het vertrouwen van de gebruiker in de oplossing garanderen en kadert in de context van explainable AI waarbij AI systemen aangeven hoe ze tot een bepaalde conclusie zijn gekomen.   Meer uitgebreide info over dit project en zijn resultaten kan je vinden op http://ai-assisted-mdm.be/ . AI-Assisted Master Data Management is een onderzoeksproject van het onderzoekscentrum Centre for Applied Data Science.

Beschrijving (Enhanced)
Dit project helpt Vlaamse maakbedrijven met kwalitatieve masterdata door inzichten en gratis oplossingen te bieden voor het automatisch opsporen en corrigeren van foutieve data. Bezoek http://ai-assisted-mdm.be voor meer info.
Beschrijving (Cleaned)

De oplossingen voorgesteld in dit project zullen ervoor zorgen dat Vlaamse maakbedrijven meer inzichten en methodieken krijgen omtrent de kwaliteit van hun masterdata en het belang dat daaraan moet gegeven worden. Het project richt zich specifiek op kleine en middelgrote ondernemingen die over de jaren heen grote hoeveelheden masterdata hebben gecreëerd.

Masterdata zijn de niet-transactionele kerngegevens die essentieel zijn voor een organisatie met product- en materiaalinformatie en klant- en leveranciergegevens als voornaamste voorbeelden. Mede door de digitalisering nemen ook de complexiteit en de hoeveelheid te beheren masterdata-attributen toe. Dit stelt bedrijven voor de uitdaging het gebruik van masterdata beter te organiseren: nu is dit dikwijls een traag en arbeidsintensief proces waarbij vaak voor honderden velden een waarde moet worden ingegeven of waarbij data uit verschillende niet altijd onderling consistente bronnen wordt gecombineerd waardoor kwaliteitsproblemen ontstaan.

Met dit project willen we meer inzichten creëren in het belang van kwalitatieve masterdata en willen we met behulp van gratis beschikbare oplossingen een aanzet geven om foutieve masterdata automatisch op te sporen én bovendien een correctie voorstellen voorzien van een begrijpbare reden hiervoor. Dit laatste moet het vertrouwen van de gebruiker in de oplossing garanderen en kadert in de context van explainable AI waarbij AI systemen aangeven hoe ze tot een bepaalde conclusie zijn gekomen.

Meer uitgebreide info over dit project en zijn resultaten kan je vinden op http://ai-assisted-mdm.be/AI-Assisted Master Data Management is een onderzoeksproject van het onderzoekscentrum Centre for Applied Data Science.

Resultaatsbeschrijving

Binnen het project “AI-Assisted Master Data Management” werd m.b.v. Python een applicatie gebouwd die gemakkelijk geïnstalleerd kan worden op zowel Windows als Linux. De applicatie bestaat uit verschillende onderdelen die het samen mogelijk maken om een dataset op te schonen, waarbij er geen enkele kennis van programmeren nodig is. De applicatie bestaat uit de volgende onderdelen:

  • Data profiling: hierbij krijgt men inzicht in de verdeling van de waarden in de verschillende kolommen. Men kan ook zien wat de eventuele verbanden (correlaties) zijn tussen de verschillende kolommen.
  • Data cleaning: hierbij wordt er gekeken naar de structuur van de waarden in één enkele kolom (“structure detection”), kunnen duplicaten (gelijkaardige maar niet noodzakelijk identieke waarden) ontdekt worden in één enkele kolom. Tenslotte is er ook de mogelijkheid om verschillende standaard “data cleaning” operaties op één kolom te combineren tot een “cleaning pipeline”.
  • Deduplication: hierbij wordt gebruikgemaakt van de Zingg bibliotheek om duplicaten te detecteren, maar dit keer op het niveau van volledige records. Duplicaten zijn records die gelijkaardig zijn maar niet noodzakelijk gelijk en die verwijzen naar dezelfde entiteit in de fysieke wereld. Typische voorbeelden zijn dubbel aangemaakte producten of dezelfde persoon die meerdere malen in de database van contacten zit.
  • Rule Learning: in dit onderdeel van de tool worden enerzijds businessregels ontdekt die aanwezig zijn in de data, en anderzijds worden de gevonden businessregels gebruikt om aan te duiden waar in de dataset mogelijks foutieve waarden aanwezig zijn. De businessregels kunnen gezocht worden aan de hand van een eigen ontwikkeld algoritme (gebaseerd op het FP-growth algoritme) waarna de “interessante” regels worden getoond op basis van de C-metriek, die de kwaliteit van een regel aangeeft. Als alternatief kunnen de businessregels ook worden gezocht door het Pyro algoritme, waarvan we een bestaande implementatie gebruiken. Nadat de businessregels werden gevonden kunnen deze gebruikt worden om foutieve waarden op te sporen. Omdat verschillende businessregels elkaar kunnen “tegenspreken”, i.e. ze kunnen een verschillende waarde voorstellen werd er een eigen algoritme ontwikkeld dat op een rationele manier beslist welke regel het “meest juist” is. De gebruiker ziet in de tool de regel die gebruikt werd om de suggestie te doen, alsook de oude en nieuwe waarde. De gebruiker van de tool heeft finaal de eindbeslissing in handen om een waarde al dan niet aan te passen. Nadat er waarden werden aangepast voorziet de tool in een manier om de gevonden businessregels aan te passen op basis van de nieuwe waarden. Op die manier ontstaat een iteratief proces dat de gebruiker toelaat om de data op te schonen.
Resultaatsbeschrijving (Cleaned)

Binnen het project "AI-Assisted Master Data Management" is een applicatie ontwikkeld met behulp van Python die eenvoudig kan worden geïnstalleerd op zowel Windows als Linux.

De applicatie bestaat uit verschillende onderdelen die samenwerken om een dataset op te schonen, zonder dat er enige programmeerkennis vereist is. De applicatie omvat de volgende onderdelen:

  • Data profiling: dit geeft inzicht in de verdeling van waarden in de verschillende kolommen. Ook kunnen potentiële verbanden (correlaties) tussen de kolommen worden waargenomen.

  • Data cleaning: hier wordt gekeken naar de structuur van waarden in een enkele kolom ("structure detection"), kunnen duplicaten (vergelijkbare maar niet identieke waarden) worden opgespoord in een enkele kolom. Verder is er de mogelijkheid om verschillende standaard "data cleaning" operaties op één kolom te combineren tot een "cleaning pipeline".

  • Deduplicatie: de Zingg-bibliotheek wordt gebruikt om duplicaten te detecteren op het niveau van volledige records. Duplicaten zijn records die vergelijkbaar zijn maar niet identiek en verwijzen naar dezelfde entiteit in de fysieke wereld, zoals dubbel aangemaakte producten of meerdere vermeldingen van dezelfde persoon in de contactendatabase.

  • Rule Learning: in dit onderdeel van de tool worden zowel bestaande bedrijfsregels ontdekt in de data als nieuwe bedrijfsregels gegenereerd om mogelijke foutieve waarden in de dataset te identificeren.

De bedrijfsregels kunnen worden gezocht met behulp van een eigen ontwikkeld algoritme (gebaseerd op het FP-growth algoritme) en vervolgens worden de "interessante" regels getoond op basis van de C-metriek die de kwaliteit van een regel aangeeft. Als alternatief kunnen de bedrijfsregels ook worden gezocht met behulp van het Pyro-algoritme, waarvoor een bestaande implementatie wordt gebruikt.

Na het vinden van bedrijfsregels kunnen deze worden toegepast om foutieve waarden te detecteren. Om te bepalen welke regel het meest geschikt is wanneer regels elkaar tegenspreken, is een eigen algoritme ontwikkeld dat op een rationele manier de juiste regel selecteert. De gebruiker ziet in de tool welke regel is gebruikt om een suggestie te doen, samen met de oude en nieuwe waarden. De eindbeslissing om een waarde al dan niet aan te passen ligt bij de gebruiker.

Na het aanpassen van waarden biedt de tool een manier om de gevonden bedrijfsregels bij te werken op basis van de nieuwe waarden. Dit zorgt voor een iteratief proces waarmee de gebruiker de data kan blijven opschonen.

Start Datum
01-12-2021
Eind Datum
30-11-2023
Verification Status
Not verified