Recherche d'emploi > Montréal, QC > Site reliability engineer

Azure Kuberbetes & Site Reliability Engineer (SRE)

KLANIK
Montréal, Canada
Temps plein

KLANIK est une société de conseil en Ingénierie IT qui accompagne ses clients dans leurs projets digitaux et technologiques.

Le groupe KLANIK compte désormais plus de 750 talents, évoluant dans 16 agences en Europe, Amérique du Nord, Afrique et Moyen-Orient.

Des experts engagés, atypiques et passionnés, impliqués dans des projets stratégiques grâce à leur haut niveau de compétences en Software, DevOps, Cloud, Agilité, Cybersécurité, Big Data & IA.

En parallèle de leurs métiers, les collaborateurs du groupe KLANIK sont accompagnés au quotidien dans leur développement personnel et professionnel, via différentes initiatives engageantes et innovantes : KONSCIOUS : communauté interne engagée dans les enjeux écologiques, sociaux et environnementauxKAMPUS : institut de formation technique certifiéKORNER : incubateur de start-ups technologiquesKLANIK ESPORT : club professionnel e-sport ouvert aux collaborateurs

Description du poste :

Titre du poste : Ingénieur en Fiabilité de Site (SRE) - Kubernetes sur AzureL'Ingénieur en Fiabilité de Site (SRE) spécialisé en Kubernetes sur Azure sera responsable de garantir la fiabilité, l'évolutivité et la disponibilité de la flotte Kubernetes de l'entreprise sur la plateforme Azure.

Il travaillera en étroite collaboration avec les autres équipes SRE pour s'assurer que les services cloud de l'organisation respectent les objectifs de niveau de service (SLO) et les accords de niveau de service (SLA) requis.

Responsabilités principales : Concevoir, mettre en œuvre et maintenir l'infrastructure Kubernetes et ses services transversaux pour assurer une haute disponibilité, évolutivité et performance.

Mettre en place et maintenir des procédures de surveillance, d'alerte et de réponse aux incidents pour garantir une réponse rapide aux problèmes système et de service.

Développer et maintenir des scripts et des outils d'automatisation pour rationaliser les processus de déploiement et de gestion des applications conteneurisées sur Kubernetes.

Collaborer avec les autres équipes SRE pour concevoir, mettre en œuvre et maintenir des plans de reprise après sinistre et de continuité des activités.

Développer et maintenir des politiques et procédures de sécurité pour garantir la sécurité des services Kubernetes sur Azure.

Se tenir à jour des nouvelles fonctionnalités et capacités de Kubernetes sur Azure et recommander des modifications ou des mises à niveau si nécessaire.

Fournir des conseils et des formations aux autres membres de l'équipe SRE sur les meilleures pratiques et procédures Azure.

Développer et maintenir la documentation relative à l'infrastructure et aux services Kubernetes sur Azure.

Profil recherché :

Diplôme en informatique, technologies de l'information ou domaine connexe.Minimum de 5 ans d'expérience en ingénierie de fiabilité de site ou dans un rôle similaire, avec un accent sur l'infrastructure cloud sur la plateforme Azure.

Connaissance approfondie des services Kubernetes sur Azure, en particulier le calcul, le réseau et le stockage.Expérience avec les outils d'automatisation Kubernetes tels que Terraform, Helm, FluxCD ou Kustomize.

Expérience en surveillance et création de tableaux de bord (Datadog, Grafana).Excellentes compétences en résolution de problèmes et en dépannage.

Excellentes compétences en communication et en collaboration.Les certifications Microsoft Azure sont préférées.

Il y a 28 jours
Emplois reliés
Offre sponsorisée
National Bank
Montréal, Québec

As a Specialist in site reliability engineering on the National Bank Data Protection team, you will ensure the operational reliability of data protection assets. Apply SRE theory and practices. ...

Bourse de Montreal Inc.
Montréal, Québec

Previous experience as a Site Reliability Engineer (SRE). The Devops Engineering team is responsible for working closely with various business units and stakeholders to solve complex problems using innovative solutions, quickly and effectively using agile, lean and devops methodologies, while ensuri...

Axelon Services Corporation
Montréal, Québec

The Application Infrastructure (AI) department is seeking a Site Reliability Engineer (SRE) to help drive the reliability engineering, operations and customer support services for ***'s ServiceNow SaaS implementation. Job Title: Site Reliability Engineer (SRE), ServiceNow, Application Infrastructure...

Alltech Consulting Services
Montréal, Québec

The Application Infrastructure (AI) department is seeking a Site Reliability Engineer (SRE) to help drive the reliability engineering, operations and customer support services for Company’s ServiceNow SaaS implementation. Successful candidates for SRE roles in Application Infrastructure have so far ...

Lyft
Montréal, Québec

Site Reliability Engineer (SRE), Systems Engineer, Software Engineer, DevOps Engineer, Infrastructure Engineer, Production Engineer). The Transit, Bikes, and Scooters (TBS) infrastructure team at Lyft in Montreal is growing, and we are looking for a Site Reliability Engineer to support our productio...

Behavox
Montréal, Québec

As a Site Reliability Engineer you will be responsible for the availability, latency, performance, efficiency, change management, monitoring, emergency response, and capacity planning of all production systems and services. You will work together with other DevOps, Product and Engineering teams to d...

Leica Geosystems
Canada

Senior DevOps Engineer / Site Reliability. DevOps &/or Site Reliability Engineering principles. Senior DevOps Engineer / Site Reliability | Hexagon Geosystems. As a Senior DevOps/SRE Engineer, you will help build solutions that allow our cloud-based platform, HxDR, to continue to evolve and grow thr...

SAP
Montréal, Québec

The Site Reliability Engineering teams make the SAP Business Technology Platform run better by providing 24x7 deep technical coverage for Incident Management (Outages and other incidents with major customer impact) applying SRE principles. As a Site Reliability Engineer, you will have the opportunit...

Great Canadian Gaming Corp.
Canada, Canada

Mindwire is currently looking for a Site Reliability Engineer to work for our valued public sector client. The position is located in Ottawa, Ontario, 3 days onsite preferred, but would be open to remote for the right candidate. ...

SageBeans RPO
Montréal, Québec

ID d'affichage de poste: NBCJP00006595.Télétravail: 2-3 jours semaine au bureau.Bilinguisme: Français, Anglais.Possibilité de permanence chez le client après le mandat: Oui.Identifier les choses à mettre en place pour faciliter les activités quotidiennes d’opération et administration des environneme...