
Retour d’urgence : reprise d’infrastructure Proxmox en situation critique
- posté par Delamarre, Nicolas
- Catégories Proxmox
- Date 5 juillet 2025
- commentaires 0 commentaire
Lorsqu’un sinistre survient – panne de disque, coupure de courant ou crash du nœud principal – savoir reprendre rapidement une infrastructure Proxmox devient crucial. Voici comment agir efficacement, étape par étape, pour éviter que la situation ne coûte cher.
1. Comprendre les scénarios critiques
Plusieurs causes communes d’arrêt soudain :
Panne de disque ou contrôleur RAID : comme plusieurs administrateurs l’ont rapporté dans des forums francophones et Reddit (marketplace.ovhcloud.com).
Perte soudaine d’alimentation : un utilisateur décrit dans r/Proxmox un démarrage en mode emergency après une coupure de courant, nécessitant une intervention manuelle (reddit.com).
Échec de restauration de VM : sous certaines configurations, restaurer une sauvegarde peut provoquer l’arrêt complet du nœud (reddit.com).
2. Mise en place d’un Plan de Reprise d’Activité (PRA)
a) Sauvegarde régulière et hors site
Utiliser Proxmox Backup Server ou solutions alternatives (Vinchin, OVH) pour des sauvegardes hors hôte (assetware-technology.com).
Respecter la règle 3-2-1 : trois copies, deux supports différents, un ailleurs.
b) Clustering et haute disponibilité
Déployer un cluster de 3 nœuds minimum, avec haute disponibilité (HA) activée (assetware-technology.com, assetware-technology.com).
Configurer un watchdog hardware pour redémarrage automatique en cas de crash (maxthon-fr.com).
c) Stockage redondant
Utiliser ZFS ou Ceph pour la tolérance aux pannes, en miroir et avec réplication (assetware-technology.com).
3. Reprise après incident : étapes clés
Accéder à la console de secours
Branchez clavier et écran si l’hôte est injoignable en SSH ou réseau (forum.arn-fai.net).
Réparer un système de fichiers endommagé
Utilisez
fsck
via un live-ISO, ou activezfsck.mode=force
dans GRUB pour réparation automatique au démarrage (reddit.com).
Redémarrer proprement les services Proxmox
Utilisez l’interface web ou des commandes (
systemctl restart pve*
) pour relancer les services hyperviseurs.
Restaurer VM et containers
Restaurez une sauvegarde sur un nœud sain. Si le nœud plantait à la restauration, essayez de corriger l’arriéré matériel (SSD écroulé) avant restauration .
Retour d’expérience :
“I have a server setup… restoring backups caused my node to crash… hardware cannot handle the I/O load” (reddit.com).
Étudier les capacités I/O du matériel avant d’initier des gros restore.
4. Après la reprise : sécuriser et apprendre
Audit des logs et documentation de l’incident.
Validation des sauvegardes et automatisation via scripts.
Revue du PRA : augmenter redondance ou surveiller matériel vieillissant.
Exemple inspiré de Reddit (reddit.com) :
“I now have three hypervisor host servers… replication snapshot… within minutes… lose at most 30 minutes”
5. Bonnes pratiques synthétiques
Action | Description |
---|---|
Sauvegarde 3-2-1 avec PBS | Sauvegardes hors hôte, versionnées |
Cluster HA | Redémarrage automatique sur autre nœud |
Watchdog hardware | Reboot automatique en cas de crash |
Réplication | ZFS/Ceph pour éviter point unique de défaillance |
Test de PRA régulier | Restoration d’urgence et vérification de capacité I/O |
Conclusion
Un retour d’urgence réussi avec Proxmox repose sur une préparation rigoureuse (PRA, redondance), une réaction rapide (accès console, fsck, restauration), et une amélioration continue (revue, test, documentation). L’expérience de la communauté montre combien chaque étape compte, et comment éviter que des failles techniques ne se transforment en arrêts coûteux.