We can't find the internet
Attempting to reconnect
Something went wrong!
Hang in there while we get back on track
DOSP-VHR-003467 | Data pipeline
Details
- Business Unit
- DOSP-KDG
- Kennisgroep
- OC Duurzame Industrie
- Beschrijving (Original)
- Beschrijving (Enhanced)
- Ontwikkel een open source dataplatform voor R&D laboresultaten, automatiseer dataopslag en visualisatie via ETL pijplijnen. Optimaliseer data-archivering en gebruik Large Language Models voor dataconversie. Potentiële valorisatie via TETRA projecten en intern gebruik.
- Beschrijving (Cleaned)
-
Het opzetten van een open source gecentraliseerd dataplatform voor het verzamelen van alle onderzoeksdata die wordt geproduceerd door testcellen en labo-apparatuur.
Veel bedrijven en laboratoria verzamelen nog veel meetresultaten in Excel bestanden, Word bestanden, etc. en slaan deze handmatig op. Hierdoor is data archivering foutgevoelig en kan er nauwelijks historische data hergebruikt worden door gebrek aan metadata.
In project ontwikkelen we een open source toolkit om R&D laboresultaten automatisch en systematisch op te slaan. Dit beslaat het opzetten van sjablonen en ETL (Extract Transform Load) pijplijnen om data in een database op te slaan. Vervolgens kan data geëxtraheerd worden aan de hand van query's tegen de database om data te visualiseren en te verwerken.
We evalueren hierbij de mogelijkheden van Large Language Models (LLMs) om ongestructureerde data om te zetten naar semi-gestructureerde data om het ETL proces te vereenvoudigen. Valorisatie mogelijkheden via TETRA projecten worden geëvalueerd. Langetermijn valorisatie kansen bestaan door door ook intern gebruik te maken van de toolkit.
- Resultaatsbeschrijving
-
Primaire noden en use case voor gecentraliseerde opslag zijn geïdentificeerd.
- Resultaatsbeschrijving (Cleaned)
-
Primaire noden en use case voor gecentraliseerde opslag zijn geïdentificeerd.
- Start Datum
- 01-09-2024
- Eind Datum
- 31-08-2025
- Verification Status
- Not verified