Linux bleibt stehen

ElSer

nicht mehr wegzudenken
Hallo,

ich betreibe in meinem Keller einen kleinen Server (Files, www, Datenlogger) unter OpenSuse 10.2. Der Server ist ein 400 MHz Pentium und besitzt 1 SCSI Platte mit dem System/swap und zwei IDE Platten mit einem Software Raid für die Files.

Die Sicherung der Daten hat bisher immer wunderbar übers Netz funktioniert. Seit neuestem bleibt der Rechner nach ca. 10-20 Minuten bzw. ~500 MByte stehen. Es geht nichts mehr, kein Remote-Zugriff, keine Umschaltung auf eine andere Konsole und mein Datenlogger (der auf der Konsole 1 im Vordergrund läuft) steht. Dachte erst, ich habe ein Temperaturproblem, habe jedoch dann mit einem externen Lüfter (=30cm Ventilator) für Temperaturen von <30°C gesorgt - keine Änderung.

Ich hasse es, wenn ein Rechner so was macht:cry:

Jetzt suche ich ein Tool, mit dem ich, ja, ich weiß nicht was alles, überwachen bzw. mitloggen kann (CPU, Prozesse,???). Kann mir jemand einen Tip geben???
 
Ich hatte mal diese Meldung im zmd-messages
Code:
30 Jun 2007 12:07:46 WARN  ShutdownManager      Preparing to sleep...
30 Jun 2007 12:07:46 WARN  ShutdownManager      Going to sleep, waking up at 07/01/2007 10:57:46
und habe daraufhin Zenworks Management/zmd deinstalliert. (Ich hielt es für ein Symptom, nicht für die Ursache. Der Shutdown kam ja nur bei der Sicherungsaktion und nicht zeitgesteuert).

Seither findet sich in messages nichts mehr hilfreiches...
 
Die Smartmontools habe ich bereits am laufen, wurde aber bisher aus den Ausgaben nicht wirklich schlau. Die Option -H ist ja noch überschaubar:
Code:
tux:/mnt/raid # smartctl -H /dev/hda
smartctl version 5.37 [i686-suse-linux-gnu] Copyright (C) 2002-6 Bruce Allen
Home page is http://smartmontools.sourceforge.net/

=== START OF READ SMART DATA SECTION ===
SMART overall-health self-assessment test result: PASSED

Wenn ich mit der Option -a starte, gehts los. Ich bekomme ich unter anderem
Code:
 Warning! SMART ATA Error Log Structure error: invalid SMART checksum.
Ich gehe davon aus, daß das ein Dateiproblem ist?

/hda (SAMSUNG SP1614N) hat zwei Fehler, jeweils nach dem Kommando
Code:
SET FEATURES [Enable APM]
Da hatte ich mal versucht, die Platten zu parken wenn im Leerlauf, ging jedoch nicht. Habe ich dann gelassen, bringt angeblich eh nichts.
Die /hdc hat 16 Fehler:eek:, jedoch alle um den gleichen Zeitpunkt,und mit
Code:
SET FEATURES [Enable AAM]
etc.


Auf was müßte ich noch achten, bzw. wie hat es sich bei Dir abgezeichnet???

Und bis hier her schon mal danke für die Anregungen:)
 
Auf was müßte ich noch achten, bzw. wie hat es sich bei Dir abgezeichnet???

Also bei mir wars so, dass ich kurz vor dem Ableben der Festplatte mehrere E-Mails von Smart bekommen habe mit allerlei Fehlern.

Ich würde mir mal die Ausgabe von smartctl -A anschauen. In der Tabelle sind besonders die Pre-fail Werte interessant. Leider ist dieses Value/Worse/Tresh System relativ kompliziert, da müssteste dir nochmal die Manpage durchlesen. Soweit ich mich erinnern kann, dürfen die Value Werte und die Worse Werte niemals unter die Tresh Werte fallen.

Außerdem könntest du diese Smart Tests ausführen: smartctl -t short und smartctl -t long.

Gruß
 
Nochmal Hallo!

Ich war jetzt einige Wochen ein wenig erziehungstechnisch eingespannt, darum die kleine Pause.

@Viper:
Ich habe mich mal mit den Attributen beschäftigt.
1 Raw_Read_Error_Rate = 70
196 Reallocated_Event_Count = 311

Also habe ich mich entschlossen, die Platten zu ersetzen. Beim Kopieren der Daten (unter Linux) auf die neue Platte kam dann der "Klack of Death": Die Platte machte "Klack" und Linux blieb stehen. Der Klack kommt reproduzierbar nur bei Dateien > 10 MByte, kleinere Dateien kann ich Gigabyteweise kopieren! Sobald ich die Platte vom Strom nehme, läuft Linux weiter. Ich kann logischerweise nur nicht mehr auf die Platte zugreifen

Das Wochenende habe ich jetzt damit verbracht, Dateienweise die Platte zu kopieren, dazwischen immer ein Reboot.

Finger weg von Samba in diesem Fall sondern mv benutzen!:wand Viele Fehlermeldungen, aber immerhin hängt er sich nicht auf...

Jetzt suche ich die ultimative Doku zu SMARTCTL, damit ich eine Sinnige Überwachung hinbekomme.

Danke für Eure Anregungen!
 
Zuletzt bearbeitet:
Oben