erlug
[Top] [All Lists]

[Erlug] Hardware inaffidabile

To: erlug@xxxxxxxxxxxxxx
Subject: [Erlug] Hardware inaffidabile
From: Enrico Zini <enrico@xxxxxxxxxxxxxx>
Date: Sun, 8 Jan 2006 09:51:22 +0100
Ciao,

È da un po' che sto litigando con l'hardware del mio server:

  http://www.enricozini.org/blog/eng/server-crashes.html

è un AMD64, scheda madre Foxconn NF4UK8AA, 1G di RAM in dual channel, un
disco SATA e uno IDE.  Ci ho messo sopra una Debian pure64, prima sarge
e ora upgradata a testing.

In orgigine aveva due pattern di crash: uno era il driver per sata_nv
che iniziava a produrre messaggi di errore ad alta velocità bloccando il
systema dischi.  L'altro erano problemi random col memory manager, oops,
kernel panic, tutto senza motivo apparente (capitavano durante
l'esecuzione di processi diversi, per dire).

 - memtest86+ lasciato girare per una notte dice tutto a posto.
 - badblocks dice tutto a posto.
 - monitoro la temperatura di motherboard e dischi e raramente passano i
   40 C.
 - debsums dice tutto a posto ora che ho reinstallato tutto ciò che era
   stato corrotto da errori precedenti.

Ho aggiornato al kernel 2.6.15 e gli errori di sata_nv sono spariti, ma
stanotte ho dato la molla a 5 'while true; do compila il kernel; done'
in parallelo e dopo circa un'ora e mezza erano crashati tutti e cinque
per ICE di vario tipo, piú oom_killer si era portato via anche
spamassassin.

La cosa mi disturba.

Mi rimangono due scenari di fault hardware possibili:

 1) Qualcosa nella motherboard (ma cosa?  come lo testo?)
 2) Alimentazione (300W) insufficiente
    Attaccati ci sono:
     - motherboard
     - una CPU single core da 2Ghz reali
     - una scheda video PCI con 4Mb di RAM vecchia di mille anni
     - un disco SATA
     - uno IDE
     - 2 schedine di rete da 10 euro
     - ventole (una per la CPU, due per il cooler del disco SATA)
    e anche qui, come faccio a dire se l'alimentazione è insufficiente?

Visto che stanotte spamd mi è uscito per OOM killer e non per oops, sto
ora ripetendo l'esperimento delle 5 compilazioni parallele monitorando
la ram disponibile e con 5 giga extra di swap.

Detto questo, chiederei un piccolo brainstorming su maniere sensate di
procedere.


Ciao,

Enrico

-- 
GPG key: 1024D/797EBFAB 2000-12-05 Enrico Zini <enrico@xxxxxxxxxx>

Attachment: signature.asc
Description: Digital signature

<Prev in Thread] Current Thread [Next in Thread>