Site Reliability Engineer

Registrati subito

Site Reliability Engineer

In Bottega52 stiamo cercando un Site Reliability Engineer per unirsi al nostro team.

Full-time · Hybrid · Milano · RAL 35 - 50 k€/anno

Informazioni sul ruolo

Siamo alla ricerca di un Site Reliability Engineer motivato a contribuire alla scalabilità e all’ottimizzazione di una complessa infrastruttura Cloud in produzione su Azure.

Si tratta di un sistema distribuito progettato per raccogliere, gestire e distribuire grosse moli di dati in tempo reale. Include componenti connessi “at the edge” che devono essere in grado di operare in scenari “offline” e garantire “eventual consistency” dei dati. La lingua di lavoro principale è l’inglese, dato che il sistema è utilizzato da clienti internazionali.

Il ruolo richiede un forte focus sull’affidabilità, la scalabilità, la sicurezza e la resilienza dell’infrastruttura, con un utilizzo intensivo di Azure Kubernetes Service (AKS), Azure Database for PostgreSQL, MongoDB Atlas ed Apache Kafka. 

Il candidato deve inoltre essere disponibile a partecipare alla turnazione on-call, ovviamente remunerata e concordata per essere distribuita equamente nel mese, per la gestione di emergenze e incidenti fuori orario lavorativo standard.

Non è necessario avere esperienza approfondita su tutti i tool utilizzati: siamo pronti a offrire formazione tramite corsi e “training on the job” per colmare eventuali lacune e supportare la crescita professionale.

Responsabilità principali

  • Migliorare la resilienza ed ottimizzare il cluster Kubernetes (AKS su Azure), assicurando performance, scalabilità, sicurezza ed alta affidabilità dei servizi deployati

  • Configurare ed ottimizzare i database relazionali (PostgreSQL su Azure) e non relazionali (MongoDB Atlas) per garantire performance, affidabilità e sicurezza dei dati

  • Gestire e ottimizzare Apache Kafka (su AKS) per la raccolta e distribuzione di dati in tempo reale

  • Automatizzare processi operativi per ridurre il “toil” e migliorare l’efficacia dei team (Platform team e Product team)

  • Partecipare alla turnazione on-call per garantire una rapida risposta agli incidenti e alle emergenze

  • Sviluppare pipeline di monitoraggio e alerting per identificare e debuggare rapidamente problemi operativi

  • Identificare prontamente la “root cause” di problemi bloccanti, sviluppando documentazione tecnica dettagliata ed automazioni per evitare che problemi noti si verifichino nuovamente

  • Collaborare con il team di sviluppo per il miglioramento continuo del ciclo di vita dello sviluppo software (SDLC), garantendo pratiche solide e coerenti

Cosa offriamo

  • Opportunità di lavorare su infrastrutture cloud-native moderne, resilienti e scalabili, in un contesto di stream processing ed edge computing

  • Forte attenzione alla cura delle persone, guidata dai nostri valori aziendali di intraprendenza, curiosità, cura e onestà

  • Ambiente collaborativo e stimolante, “remote friendly”, orientato alla crescita professionale e personale grazie alla collaborazione continua con i coach di #AuthenticLeader

  • Pacchetto retributivo competitivo

  • Abbonamento top di gamma a FitPrime, che include accesso gratuito a +3500 palestre e centri sportivi su tutto il territorio italiano, piattaforma corsi on-line, nutrizionista e fino a due sedute di psicoterapia al mese

  • MacBook Pro 14’’ (M3 Max) ed iPhone aziendale

  • Buoni pasto da 8€ al giorno

Informazioni su di te

Requisiti

  • Laurea in Informatica, Ingegneria o esperienza equivalente

  • 3+ anni di esperienza con infrastrutture Cloud, preferibilmente Azure

  • Esperienza con sistemi distribuiti e principi di alta scalabilità e resilienza per applicazioni cloud-native

  • Esperienza consolidata in ambienti Linux, inclusa la gestione e il debugging di problemi di networking (DNS, Load Balancer, firewall e VPN)

  • Esperienza con Docker, Kubernetes ed Helm

  • Esperienza con tool di monitoraggio e logging (Prometheus, Grafana, Azure Monitor, etc.)

  • Esperienza nella creazione di automazioni (Python, Bash, Terraform) per migliorare i processi operativi, secondo il paradigma Infrastructure-as-Code (IaC)

  • Familiarità con i principi di Site Reliability Engineering, inclusi SLO, SLA ed “error budgets”

  • Disponibilità a partecipare alla turnazione on-call in reperibilità

  • Buona conoscenza della lingua inglese, scritta e parlata, obbligatoria per l’interazione con clienti internazionali

Nice to Have

  • Certificazioni Azure (es. Azure Solutions Architect, Azure DevOps Engineer)

  • Esperienza nell’implementazione delle best practices di sicurezza su sistemi distribuiti, dalla configurazione di rete alla gestione dei segreti, fino alla scansione automatica per l’identificazione di vulnerabilità note

  • Esperienza con database relazionali (PostgreSQL) e non relazionali (MongoDB)

  • Esperienza con Apache Kafka e conoscenza dei concetti base di stream processing distribuito

  • Esperienza con CI/CD (Jenkins, Gitlab, etc.)

  • Familiarità con architetture di microservizi e metodologie DevOps/GitOps

  • Esperienza di progettazione e sviluppo di sistemi distribuiti real-time e fault-tolerant

Inoltra la domanda per questo ruolo

Vuoi unirti al nostro team come nuovo Site Reliability Engineer? Allora ci piacerebbe avere tue notizie!