La bulle de nish`

Toubleshooting 

PG inconsistent 

Si avec la commande ceph -s il y a le message d'erreur ci-dessous, il faut réparer le PG en cause.

1 scrub errors
Possible data damage: 1 pg inconsistent

Lancer la commande ceph health detail pour récupérer l'id du PG endommagé

HEALTH_ERR 1 scrub errors; Possible data damage: 1 pg inconsistent
[ERR] OSD_SCRUB_ERRORS: 1 scrub errors
[ERR] PG_DAMAGED: Possible data damage: 1 pg inconsistent
pg 2.34 is active+clean+inconsistent, acting [10,4,12]

Ici l'id est 2.34, on va lancer la commande de réparation ceph pg repair 2.34
Attendre que ceph fasse le travail et vérifier le status avec ceph -s
Pour avoir des information complémentaire pour trouver l'origine du problème lancer la commande rados list-inconsistent-obj 2.34 --format=json-pretty

Ce problème est souvent lié à un disque défectueux, il faut vérifier que c'est bien le cas.

Maintenance d'un serveur 

En cas de maintenance d'une machine pour des mises à jour système par exemple on peut mettre un serveur en maintenance:

ceph orch host maintenance enter HOSTNAME
ceph orch host maintenance exit HOSTNAME

Supprimer un serveur 

Dans le cas du remplacement d'une ancienne machine ou de la perte total d'un serveur

ceph orch host drain HOSTNAME
ceph orch osd rm status
ceph orch ps HOSTNAME
ceph orch host rm HOSTNAME  # --offline --force

Remplacement d'un OSD 

Dans le cas d'un changement de disque suite à la défaillance de celui-ci:

Sortir l'osd du cluster ceph osd out ID_OSD
Avec la commande ceph -s vérifier régulièrement qu'il n'y a plus d'objects misplaced
Stopper le service sur la machine de l'osd ceph osd down osd.ID_OSD
Supprimer l'osd ceph osd rm osd.ID_OSD
Supprimer l'osd de l'inventaire (crushmap) ceph osd crush rm osd.ID_OSD
Supprimer les identifiants d'authentification de l'osd ceph auth del osd.ID_OSD
Sur le serveur qui contient l'osd systemctl disable ceph-CLUSTER_ID@osd.ID_OSD.service
Mettre en maintenance le serveur avec le disque défecteux
Changer le disque
Sortir le serveur de la maintenance

Mettre à jour le cluster 

Il suffit de lancer cette commande en précissant le numéro de version:
```
ceph orch upgrade start --ceph-version 17.2.5
```
Voir la progression de la mise à jour
```
ceph -s
ceph -w # voir les logs
```
En cas de souci on peut stopper une mise à jour:
```
ceph orch upgrade stop
```