DOSP-VHR-003467 | Data pipeline

Bewerk Dossier Terug

Details

Business Unit
DOSP-KDG
Kennisgroep
OC Duurzame Industrie
Beschrijving (Original)
Beschrijving (Enhanced)
Ontwikkel een open source dataplatform voor R&D laboresultaten, automatiseer dataopslag en visualisatie via ETL pijplijnen. Optimaliseer data-archivering en gebruik Large Language Models voor dataconversie. Potentiële valorisatie via TETRA projecten en intern gebruik.
Beschrijving (Cleaned)

Het opzetten van een open source gecentraliseerd dataplatform voor het verzamelen van alle onderzoeksdata die wordt geproduceerd door testcellen en labo-apparatuur.

Veel bedrijven en laboratoria verzamelen nog veel meetresultaten in Excel bestanden, Word bestanden, etc. en slaan deze handmatig op. Hierdoor is data archivering foutgevoelig en kan er nauwelijks historische data hergebruikt worden door gebrek aan metadata.

In project ontwikkelen we een open source toolkit om R&D laboresultaten automatisch en systematisch op te slaan. Dit beslaat het opzetten van sjablonen en ETL (Extract Transform Load) pijplijnen om data in een database op te slaan. Vervolgens kan data geëxtraheerd worden aan de hand van query's tegen de database om data te visualiseren en te verwerken.

We evalueren hierbij de mogelijkheden van Large Language Models (LLMs) om ongestructureerde data om te zetten naar semi-gestructureerde data om het ETL proces te vereenvoudigen. Valorisatie mogelijkheden via TETRA projecten worden geëvalueerd. Langetermijn valorisatie kansen bestaan door door ook intern gebruik te maken van de toolkit.

Resultaatsbeschrijving

Primaire noden en use case voor gecentraliseerde opslag zijn geïdentificeerd.

Resultaatsbeschrijving (Cleaned)

Primaire noden en use case voor gecentraliseerde opslag zijn geïdentificeerd.

Start Datum
01-09-2024
Eind Datum
31-08-2025
Verification Status
Not verified