Cómo reconocer y eliminar errores osd crashed de Ceph en Proxmox VE

Cuando un daemon OSD de Ceph falla, podría aparecer la siguiente advertencia en tu entorno Proxmox:

HEALTH_WARN: 1 daemons have recently crashed
osd.3 crashed on host sm01d at 2025-01-26T17:43:41.644866Z

Sigue estos pasos para resolver el problema:

1. Verificar los registros de fallos

Primero, identifica los detalles del fallo listando los errores recientes:

ceph crash ls

Para obtener más información sobre un fallo específico:

ceph crash info <CRASH_ID>

Reemplaza <CRASH_ID> con el ID del fallo mostrado en el comando anterior.

2. Acknowledger el reporte de fallo

Tras revisar los detalles, archiva el reporte para eliminar la advertencia:

ceph crash archive <CRASH_ID>

Para archivar todos los reportes a la vez:

ceph crash archive-all

3. Reiniciar el daemon OSD

Si osd.3 sigue inactivo, reinícialo manualmente:

systemctl restart ceph-osd@3

Verifica su estado:

systemctl status ceph-osd@3

4. Verificar la salud de Ceph

Después de reiniciar, verifica el estado del clúster de Ceph:

ceph health detail
ceph -s

Si el error persiste, revisa los registros del sistema para una investigación más detallada:

journalctl -u ceph-osd@3 --no-pager --lines=100