Smart e disk failures

Nel 2007 Google pubblica un articolo che presenta i risultati di una ricerca sui guasti ai dischi fissi. Basandosi su un campione piuttosto ampio di dischi usati in un contesto reale (l’azienda Google, per l’appunto), ottiene dei dati che mettono in discussione alcune delle più importanti nozioni fin qui esistenti in merito alle cause dei guasti dei dischi e alla loro predicibilità.

Ovviamente, anche la tecnologia SMART viene coinvolta; qualcuno legge l’articolo e conclude, in maniera approssimata, che SMART non è attendibile. Commenti in tal senso sono apparsi, ad esempio, sulla mailing list del Linux User Group di Brescia (che seguiamo anche noi). Io ritengo che questa assunzione sia errata, e ora vi spiego perchè.

Partiamo dai risultati della ricerca di Google. Sono gli stessi autori a elencare i punti chiave scoperti con questa analisi, che – a detta loro – si basa su un campione più ampio di quanto sia mai stato fatto in precedenza:

  • contrariamente a quanto riportato da studi precedenti, gli autori trovano poca correlazione tra i guasti e la temperatura o il livello di attività del disco;
  • alcuni parametri SMART (scan errors, reallocation counts, offline reallocation counts e probational counts) hanno un alta efficacia nel predire possibili guasti;
  • data però una relativamente alta percentuali di dischi che si sono guastati senza segnalare parametri SMART errati, si può concludere che SMART da solo non è sufficiente per predire tutti i possibili guasti di un disco.

Entriamo un po’ nel dettaglio.

A quanto pare, la temperatura non influisce così clamorosamente nella probabilità di guasto di un disco. In particolare – e qui mi riallaccio a nozioni che ho ricevuto recentemente da un noto provider locale, corroborato da diversi studi in merito trovati su internet – lavorare a una temperatura molto bassa non riduce la probabilità di guasti sul disco.

In altre parole, pare che tenere il nostro PC o il nostro datacenter in un ambiente sui 20 – 24 gradi centigradi (e non umido) sia più che sufficiente per i dischi; una temperatura più bassa non porta particolari benefici, e considerando il consumo energetico che comporta, è sostanzialmente uno spreco.

Il livello di attività (cioè l’uso più o meno intenso del disco), a quanto risulta dalla ricerca di Google, pare avere importanza solo per un disco giovane, diciamo con meno di un anno di vita. Gli autori suggeriscono una sorta di “selezione naturale” che fa sì che solo i dischi completamente sani sopravvivano. Superato il primo anno, il livello di attività non risulta più la discriminante principale per i guasti del disco.

Attenzione, questo non vuol dire che i dischi non invecchiano. Contengono diversi componenti  meccanici, ci mancherebbe. Quello che sembra emergere è che le altre cause di guasto sono molto più importanti della vecchiaia, per cui non dobbiamo preoccuparci particolarmente di quanto è vecchio un disco… perlomeno entro i cinque anni, ecco, dopo io lo cambierei lo stesso, così, neh, per prudenza… 🙂

E ora parliamo di SMART.

Alcuni parametri SMART sono segnali inconfondibili: se compare anche solo 1 ricorrenza in una delle voci scan errors, reallocation counts, offline reallocation counts e probational counts, la probabilità che il vostro disco vi molli entro 60 giorni sale talmente che vi conviene cambiarlo subito.

Infine, l’ultima affermazione degli autori – e quella che secondo me è stata travisata – è che molti altri dischi (poco meno del 50%) si sono guastati senza avere nessun parametro SMART fuori posto. Perciò, dicono, SMART non è da considerare uno strumento univoco per garantire la salute di un disco.

Capirete che questo NON vuol dire che SMART non è attendibile, o misura male. Equivale a dire che può accorgersi solo di una parte dei possibili guasti, e quindi se SMART ci dice che è tutto okay, non significa che il disco non possa avere dei problemi. Tuttavia, anche prendendo alla lettera la ricerca di Google, rimangono due fatti:

– ci sono alcuni parametri che sono chiari e affidabili indicatori di un guasto imminente;

– grazie a questo, almeno il 50% dei guasti di un disco si possono predire e quindi evitare (intendo, si può sostituire il disco per tempo ed evitare che il guasto abbia conseguenze).

A me non sembra uno strumento proprio inutile, voi che dite?

In attesa che la tecnologia ci regali strumenti ancora più affidabli, noi continueremo a mettere il demone SMART sui nostri server e a farci mandare periodiche segnalazioni dello stato dei dischi. E siccome sappiamo che può sempre succedere anche qualcos’altro, continueremo anche a fare dei buoni backup 🙂

linux, sistemista, smart