Serverausfall

Gestern ist leider mein root-Server bei 1und1 komplett ausgefallen. Über die serielle Console konnte ich nur noch folgende, sich alle 30s wiederholende, Fehlermeldung sehen:

ata1: command 0x25 timeout, stat 0x50 host_stat 0x4
ata2: command 0x35 timeout, stat 0x50 host_stat 0x4

Leider lies sich die Maschine nicht einmal mehr über das Webfrontend von 1und1 hart resetten und neu booten. Also blieb mir nur über den Suport anzurufen um jemanden an der Maschine vorbeizuschicken. Erstaunlicherweise wurde dies vom freundlichen (und sogar kompetenten) Support-Mitarbeiter bei 1und1 sofort veranlasst.

Nachdem ich wieder Zugriff auf die Maschine hatte, und das Raid1 neu synchronisiert war, konnte ich allerdings keine Merkwürdigkeiten feststellen.

Ich schiebe die Probleme allerdings auf den in diesem System verbauten IO-APIC, da sowohl der SATA-Controller, als auch die Netzwerkkarte Interrupts besasen, die über die IO-APIC geroutet wurden, und der Ausfall genau zu dem Zeitpunkt passierte, als ich ein Backup des Systems auf Platten kopierte.

Da ich leider keine Möglichkeit gefunden habe den IO-APIC in der Kernel-Config komplett abzuschalten, bootet das System nun eben mit dem zusätzlichen Bootparameter noapic. Da in diesem System sowieso nur sehr wenig Hardware verbaut ist, sind auch die normalen Interrupt-Routinen ausreichend, so dass kein Nachteil entsteht.

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert