Amsterdam
Senior
36 uur per week
Startdatum op 1 juli
Verlopen
48 Dagen geleden
Gemeente Amsterdam

Senior Data Engineer

Op zoek naar een Senior Data Engineer migratie naar “Databricks” op azure-platform

Behoefte omschrijving

De afgelopen jaren hebben wij te maken met versnelde technologische ontwikkelingen, zoals AI, (digitale) ecosystemen en ethiek in techniek. Daarnaast hebben we te maken met opgaven voor de stad (bijv. ondermijning), toegenomen verwachtingen van de Amsterdammers, een verhoogd risico op cybercrime en eisen vanuit wet- en regelgeving. Deze nieuwe uitdagingen en hogere eisen maken dat gaandeweg verbeteren niet genoeg is. Daarom is er een strategische keuze gemaakt voor focus op digitalisering en datagedreven werken.

Hoe doen we dit?

Fundamentele vernieuwingen vergen investeringen en systeemveranderingen. Naast een nieuwe manier van werken (opgavegericht en Agile) gaan we een modern IT fundament neerzetten. Dit IT fundament bestaat uit de Azure cloud, dataplatform met tooling (o.a. Databricks) en het standaardiseren, professionaliseren van de werkwijzes in de DevOps teams.

De kandidaat gaat verschillende datateams bij gemeente Amsterdam helpen met het migreren van hun bestaande datapipelines naar Databricks op het Azure-platform. Dit doet de kandidaat door mee te werken, te adviseren en mee te denken met de teamleden. De huidige datapipelines zijn gemaakt op basis van PostgreSQL queries en functies. Als datateams ontsluiten we niet alleen maar data, een groot deel van ons werk is ook het koppelen van data en het maken van (complexe) afleidingen. Een simpel voorbeeld hiervan is dat we vastgoed en gebiedsdata ontsluiten, we koppelen de vastgoed data aan de gebiedsinformatie, zodat we weten in welke buurt de vastgoed-objecten liggen. Daarna leiden we af welke vastgoed-objecten een woning zijn en maken we statistieken over de hoeveelheid woningen per buurt.

Opdrachtomschrijving

Het doel van deze opdracht is het begeleiden van de datateams AMI-F en AMI-P om de huidige Oracle DWH succesvol te migreren naar het Microsoft Azure Dataplatform van Amsterdam. Uitgangspunt is dat dit gebeurt met minimale onderbreking van de bestaande bedrijfsprocessen, passend binnen de nieuwe architectuur van het dataplatform en het uiteindelijk stapsgewijs uitfaseren van het huidige DWH. Deze migratie moet ervoor zorgen dat de meest belangrijke historische en actuele gegevens nauwkeurig worden overgebracht naar het dataplatform, terwijl de consistentie en betrouwbaarheid van de gegevens behouden blijven. Tegelijkertijd wordt er gekeken naar alle huidige processen en functionaliteit binnen het huidige DWH en te bepalen in hoeverre dit mee gemigreerd kan worden.

Het is voor deze opdracht daarom ook van belang om de data na bewerking (koppelen, afleiden) inhoudelijk goed te controleren, zodat we geen verkeerde statistieken publiceren. In deze functie wordt nauw samengewerkt met de andere data engineers die ook inhoudelijk veel ervaring hebben met de data. In het kort omvatten de werkzaamheden het meewerken met het team en meedenken en adviseren over hoe we van onze huidige werkwijze naar een geoptimaliseerd en efficiƫnt data verwerkings- en verrijkingsproces in Databricks komen. Hieronder valt ook het deployen van ontwikkelomgeving naar productie.

Werkzaamheden

De data engineer levert een plan van aanpak Oracle DWH naar Azure Dataplatform in Powerpoint, Word of PDF.

Daarin staan de volgende onderwerpen beschreven:

  • Huidige DWH met alle bronnen incl. de koppelingen;
  • Huidige DWH met alle afnemers;
  • Identificeren van de op te leveren dataproducten;
  • Identificeren van complexiteit en afhankelijkheid van dataproducten om een volgordelijkheid te bepalen;
  • Stappenplan (ook in tijd) om alle (geschoonde) dataproducten over te zetten, dit omvat bronschema's, schema's/datamarts en alle aanverwante DWH objecten om het huidige DWH uit te kunnen faseren.

Daarnaast helpt de kandidaat de teams met:

  • Coachen en kennis overdragen naar de teamleden. Resultaat: teamleden kunnen na afloop van de opdracht zelfstandig bestaande pipelines migreren.
  • Het najagen van kennisdelen en use case uitwerkingen om tot best practices te komen gedurende de migraties van datawarehouses en cloudVPS naar azure dataplatform. Resultaat: Organiseren van minimaal 2 events.
  • Het omschrijven van bestaande datapipelines naar geautomatiseerde datapipelines in Databricks in de Cloud. Resultaat: bestaande code is gemigreerd naar Azure omgeving (Databricks/Azure Devops/Azure blob storage).
  • Je controleert of de resultaten van een gemigreerde datapipeline exact dezelfde resultaat opleveren als in de oude omgeving. Resultaat: gemigreerde code is nauwkeurig gecontroleerd op onjuistheden.
  • Meedenken en adviseren over hoe we van onze huidige werkwijze naar een geoptimaliseerd en efficiĆ«nt data verwerkings- en verrijkingsproces in Databricks en Azure komen. Resultaat: Geoptimaliseerde data pipelines in Databricks.
  • Je geeft advies en denkt mee over hoe we onze datapipelines met behulp van Git kunnen deployen in productie. Resultaat: een goed systeem om te kunnen deployen van ontwikkel omgeving naar productie omgeving.
  • Actief samenwerken met de overige datateamleden door tijdens het werk jouw kennis over te dragen, onder andere door feedback te geven op code van collega's. Resultaat: teamleden kunnen met vragen terecht bij de kandidaat en kunnen door ondersteuning betere pipelines bouwen en code schrijven.
  • Het integreren en modelleren van data conform richtlijnen en standaarden van de data office en conform architectuur principes. Resultaat: de pipelines hebben een goede architectuur waar we op voort kunnen bouwen.
  • Naast de coaching en 2 events organiseren.

Functie eisen

  • HboĀ werk- en denkniveau
  • Minimaal 5 jaar werkervaring, die is opgedaan in complexe IT omgevingen en beschikt over recente werkervaring als data engineer in een grotere, complexe data georiĆ«nteerde omgeving
  • Aantoonbare ervaring met Azure Bricks, SQL, Python, CI/CD en Git
  • Ervaring in het coachen en kennis overdragen binnen het vakgebied data engineering
  • Begrip van en ervaring met data architectuur en data modellering

Wensen

  • Aantoonbare ervaring met het organiseren en geven van technische workshops en data events waarbij het demonstreren van technieken en het bepalen van best practices binnen het data werkgebied centraal staat
  • Ervaring met het werken in een devops team