Skip to content

20260525 server restart issues

Problème :

Au redémarrage serveur (après coupure de courant), plusieurs systèmes ne se relancent pas automatiquement :

  • LXC 104 doit être relancé à la main depuis host (a été relancé)
  • conteneurs docker bazarr, radarr, sabdnzbd, sonarr dans LXC 100 doivent être relancés à la main (ont été relancés)
  • forgejo dans LXC 107 est down (https://git.ncls.ltd/ 502)

Diagnostic complet

1. Forgejo 502 (LXC 107) — Corrigé

Cause : Cache ARP obsolète dans LXC 103 (Caddy). L'entrée 192.168.1.107 → 38:07:16:bd:d0:3c pointait vers un équipement physique du LAN (via enp4s0), non vers le LXC 107 (bc:24:11:65:47:a4).
Fix appliqué : ip neigh del 192.168.1.107 dev eth0 dans LXC 103.

2. LXC 104 ne démarre pas — Corrigé (prévention)

Cause : Race condition au boot. Timeline : - 19:30:03 — fsck démarre sur sdb1 (HDD media, nofail dans fstab) - 19:30:11pve-guests.service démarre sans attendre la fin du fsck - 19:30:23 — hook pre-start de LXC 104 → TASK ERROR: startup for container '104' failed → Le bind mount mp1: /mnt/media/games échoue car media n'est pas encore monté - 19:30:49 — fsck termine, media monte (46 secondes trop tard)

3. Conteneurs Docker LXC 100 (bazarr, radarr, sonarr, sabnzbd) — Corrigé (prévention)

Cause : Même race condition. LXC 100 a démarré avec media vide (fsck en cours). Docker a essayé de recréer les volumes et a échoué : mkdir /mnt/media/downloads: permission denied (le point de montage vide appartient à root host = nobody dans le LXC non-privilégié).

Fix préventif appliqué

Création de wait-media-mount.conf :

[Unit]
Wants=mnt-media.mount
After=mnt-media.mount

pve-guests.service attend maintenant que le montage de media se termine (ou échoue) avant de démarrer les LXC. Avec Wants (non Requires), si le disque est absent, les LXC démarrent quand même.

Point d'attention

Le HDD media (media) est à 100% de capacité (3.0 GB libres sur 3.6 TB). À surveiller.