Senior Site Reliability Engineer

C.G.I.Montréal, Québec, Canada

7 days ago

Job type

Full-time

Quick Apply

Job description

Senior Site Reliability Engineer (SRE) :

As a Senior Site Reliability Engineer, you will lead the design, implementation, and maintenance of highly reliable, scalable, and efficient infrastructure and services. You will collaborate closely with development teams to ensure system reliability, performance, and availability while driving automation and operational excellence across the platform.

Primary Responsibilities :

Lead the design, deployment, and operation of large-scale, fault-tolerant systems to ensure high availability and performance.
Develop and implement automation to streamline deployment, monitoring, and incident response processes.
Monitor system health, analyze metrics, and proactively identify and resolve reliability, scalability, and performance issues.
Collaborate with software engineering teams to improve system design, deployment pipelines, and operational practices.
Manage incident response, conduct root cause analysis, and implement corrective actions to prevent recurrence.
Drive continuous improvement in infrastructure efficiency, reliability, and scalability through innovative solutions.
Document system architecture, operational procedures, and best practices to support knowledge sharing and operational consistency.
Mentor and provide technical leadership to junior SREs and cross-functional teams.
Participate in on-call rotations to ensure 24 / 7 system reliability and rapid incident resolution.
Engage with stakeholders to align SRE practices with business goals and technical strategies.

Key Skills and Qualifications :

Extensive experience in site reliability engineering, systems engineering, or related roles, typically 5+ years.

Strong proficiency with cloud platforms (AWS, Azure, Google Cloud) and container orchestration tools (Kubernetes, Docker).

Expertise in Linux system administration, networking, and security best practices.

Proficient in programming and scripting languages such as Python, Go, Bash, or similar for automation.

Experience with infrastructure as code (Terraform, Ansible, CloudFormation) and CI / CD pipelines.

Deep understanding of monitoring, logging, and alerting tools (Prometheus, Grafana, ELK stack).

Proven ability to design and maintain scalable, distributed systems and fault-tolerant architectures.

Strong problem-solving skills and ability to handle complex technical challenges independently.

Excellent communication skills to collaborate effectively across teams and with external vendors.

Familiarity with incident management frameworks and service-level objectives (SLOs), service-level agreements (SLAs).

Preferred Qualifications :

Bachelor’s degree in Computer Science, Engineering, or a related technical field.

Certifications in cloud technologies (AWS Certified Solutions Architect, Google Professional Cloud Architect, etc.).

Experience with financial services, large-scale SaaS platforms, or enterprise IT environments.

Knowledge of security compliance and regulatory requirements relevant to infrastructure.

Challenges and Impact :

Balancing rapid feature delivery with system reliability and operational stability.

Managing complex, multi-platform, geographically distributed environments.

Driving automation and efficiency in a constantly evolving technical landscape.

Building strong relationships with stakeholders to ensure alignment and seamless service delivery.

LANGUAGE : French, English

Ability to communicate in English, both orally and in writing, is a requirement as the person in this position will need to collaborate regularly with colleagues and partners in the United States.

Ingénieur(e) senior en fiabilité de site (SRE) :

En tant qu'ingénieur(e) senior en fiabilité de site, vous piloterez la conception, la mise en œuvre et la maintenance d'infrastructures et de services hautement fiables, évolutifs et performants. Vous collaborerez étroitement avec les équipes de développement pour garantir la fiabilité, les performances et la disponibilité du système, tout en favorisant l'automatisation et l'excellence opérationnelle sur l'ensemble de la plateforme.

Responsabilités principales :

Diriger la conception, le déploiement et l'exploitation de systèmes à grande échelle et tolérants aux pannes afin de garantir une disponibilité et des performances élevées.

Développer et mettre en œuvre l'automatisation pour rationaliser les processus de déploiement, de surveillance et de réponse aux incidents.

Surveiller l'état du système, analyser les indicateurs et identifier et résoudre proactivement les problèmes de fiabilité, d'évolutivité et de performance.

Collaborer avec les équipes d'ingénierie logicielle pour améliorer la conception du système, les pipelines de déploiement et les pratiques opérationnelles.

Gérer la réponse aux incidents, analyser les causes profondes et mettre en œuvre des mesures correctives pour éviter qu'ils ne se reproduisent.

Favoriser l'amélioration continue de l'efficacité, de la fiabilité et de l'évolutivité de l'infrastructure grâce à des solutions innovantes.

Documenter l'architecture système, les procédures opérationnelles et les bonnes pratiques afin de favoriser le partage des connaissances et la cohérence opérationnelle.

Encadrer et assurer le leadership technique des SRE juniors et des équipes transverses.

Participer aux rotations d'astreinte pour garantir la fiabilité du système 24h / 24 et 7j / 7 et la résolution rapide des incidents.

Collaborer avec les parties prenantes pour aligner les pratiques SRE sur les objectifs métier et les stratégies techniques.

Compétences et qualifications clés :

Vaste expérience en ingénierie de la fiabilité des sites, en ingénierie des systèmes ou dans des rôles connexes, généralement au moins 5 ans.

Maîtrise des plateformes cloud (AWS, Azure, Google Cloud) et des outils d'orchestration de conteneurs (Kubernetes, Docker).

Expertise en administration système Linux, réseaux et bonnes pratiques de sécurité.

Maîtrise des langages de programmation et de script tels que Python, Go, Bash ou similaires pour l'automatisation.

Expérience avec l'infrastructure en tant que code (Terraform, Ansible, CloudFormation) et les pipelines CI / CD.

Maîtrise approfondie des outils de surveillance, de journalisation et d'alerte (Prometheus, Grafana, pile ELK). Capacité avérée à concevoir et maintenir des systèmes distribués évolutifs et des architectures tolérantes aux pannes.

Solides compétences en résolution de problèmes et capacité à gérer des défis techniques complexes de manière autonome.

Excellentes compétences en communication pour collaborer efficacement avec les équipes et les fournisseurs externes.

Familiarité avec les cadres de gestion des incidents, les objectifs de niveau de service (SLO) et les accords de niveau de service (SLA).

Qualifications souhaitées :

Licence en informatique, en ingénierie ou dans un domaine technique connexe.

Certifications en technologies cloud (AWS Certified Solutions Architect, Google Professional Cloud Architect, etc.).

Expérience des services financiers, des plateformes SaaS à grande échelle ou des environnements informatiques d'entreprise.

Connaissance de la conformité en matière de sécurité et des exigences réglementaires applicables aux infrastructures.

Défis et impact :

Équilibrer la rapidité de livraison des fonctionnalités avec la fiabilité du système et la stabilité opérationnelle.

Gestion d'environnements complexes, multiplateformes et géographiquement dispersés.

Favoriser l'automatisation et l'efficacité dans un environnement technique en constante évolution.

Établir des relations solides avec les parties prenantes pour garantir l'harmonisation et une prestation de services fluide.

LANGUES : Français, anglais

La maîtrise de l’anglais, à l’oral comme à l’écrit, est indispensable, car le / la titulaire de ce poste sera amené(e) à collaborer régulièrement avec des collègues et partenaires aux États-Unis.

Create a job alert for this search

Site Reliability Engineer • Montréal, Québec, Canada