Utrecht en Delft
Senior
36 uur per week
5 months
Startdatum op 15 juli
Verlopen
17 Dagen geleden
Rijkswaterstaat

Data Scientist Datalab

Functieomschrijving

Rijkswaterstaat wil haar data centraal toegankelijk maken. Om dit te bereiken ontwikkelt Rijkswaterstaat het Centraal Toegangspunt Data (CTD). Hiermee krijgt hetde beschikking over drie nieuwe (data) functies die aansluiten op de uitgangspunten van de datastrategie en de i-strategie van RWS. Voor het CTD is er behoefte aan een meer geautomatiseerde aanpak voor het cre├źren en toepassen van metadata. D.m.v. trefwoord extractie (NLP) dienen de belangrijkste woorden of woordgroepen uit de verschillende databronnen te worden ge├»dentificeerd en ge├źxtraheerd. Met de ge├źxtraheerde trefwoorden worden de belangrijkste onderwerpen en thema's binnen een databron ge├»dentificeerd. Met deze trefwoorden (incl. synoniemen) wordt de beschikbare metadata van de verschillende databronnen verrijkt. Het uiteindelijke doel van deze opdracht is het beter vindbaar maken van de metadata.

Werkzaamheden:

De opdracht achter deze inhuur is te komen tot een meer geautomatiseerde aanpak voor het cre├źren en toepassen van metadata. Om dit te realiseren is (op hoofdlijnen) de volgende functionaliteit benodigd:

  1. Tooling voor het geautomatiseerd genereren van metadata van de content inhet CTD en voor het beschikbaar maken hiervan voor het verwerken in de metadata catalogus (Data 360). Dit betreft specifiek het koppelen van data-assets (databronnen, tabellen, datasets en dataproducten) aan twee zoekbomen. E├ęn zoekboom heeft de OTL als basis en de andere heeft een vakinhoudelijke indeling.
  2. Tooling voor het indexeren van data in het CTD en deze trefwoorden opslaan in de metadata-catalogus (Data 360), zodat ook op deze trefwoorden gezocht kan worden. Deze tooling geeft aan welke velden geïndexeerd moeten worden.
  3. Een geautomatiseerd proces om op basis van (1) periodiek nieuwe metadata van databronnen in het CTD te kunnen genereren.
  4. Advies over hoe het CTD de gebruiker beter kan bedienen en zo mogelijk dit advies om te zetten in bruikbare producten.
  5. Documentatie van ontwikkelde producten ten behoeve van overdracht naar beheerders en gebruikers.

Functie eisen:

  • WO of PhD-diploma in de richting van software engineering.
  • Ervaring op het gebied van software engineering. Kandidaat dient aantoonbaar ervaring te hebben in het schrijven van hoge kwaliteit Python code volgens strikte kwaliteitseisen (o.a. voor onderhoudbaarheid, uitlegbaarheid en reproduceerbaarheid van code en resultaten).
  • Ervaring met NLP en specifiek het extraheren van trefwoorden uit databronnen met het oog deze beter vindbaar te maken.
  • In een Agile setting, ervaring in het robuust, schaalbaar, testbaar en reproduceerbaar ontwikkelen van software binnen innovatieve data projecten met een data science component.
  • Ervaring met het werken met Python, NLP, Postgres, containerization, ci/cd, unit testing, OOP, rabbitmq, kubernetes.