adrian
July 24, 2016, 6:16am
1
Hi,
bei uns schlägt seit einiger Zeit die Systemsicherung fehl (Datenbanksicherung klappt).
2016-07-23 23:59:02 sql: Connecting to database
2016-07-23 23:59:03 tsk020506: Starte Task 020506 'Cronjob ausführen', Parameter: [050302||], User-ID: [1]
2016-07-23 23:59:03 Starte Cron Job 050302
2016-07-23 23:59:03 tsk050302: Starte Child-Task 050302 'Systemsicherung durchführen', Parameter: ]
2016-07-23 23:59:03 Datensicherung beginnt
2016-07-23 23:59:03 . Starte [apt-get clean]
2016-07-23 23:59:03 . Exit: [0]
2016-07-23 23:59:03 . Starte [/usr/bin/nice -n 19 /usr/bin/ionice -c3 /sbin/backup.pl ]
2016-07-23 23:59:34 ... FATAL - UNKNOWN ERROR
2016-07-23 23:59:34 ... FATAL - CANCLE EXIT: unknown_error 255
2016-07-23 23:59:34 . Exit: [255]
2016-07-23 23:59:34 Es trat ein unbekannter Fehler auf!
2016-07-23 23:59:34 Child-Task 050302 wurde mit ] beendet
2016-07-23 23:59:34 tsk020506: CronJob 050302 mit Fehler beendet
In der backup.log steht folgendes:
genisoimage: Input/output error. Cannot read from '/mnt/SHARE_SNAP/var/lib/postgresql/9.1/main/base/16388/18468'
2016/07/24 15:06:29 main DEBUG> <] output: --------------------
2016/07/24 15:06:29 main ERROR> Returned error: 1280
2016/07/24 15:06:29 main FATAL> UNKNOWN ERROR
2016/07/24 15:06:29 main INFO> Executing: umount /mnt/NODE_SNAP
2016/07/24 15:06:30 main INFO> Executing: umount /mnt/SHARE_SNAP
2016/07/24 15:06:30 main INFO> Executing: lvremove -f /dev/vg/NODE_SNAP
2016/07/24 15:06:31 main DEBUG> >] output: --------------------
Logical volume "NODE_SNAP" successfully removed
2016/07/24 15:06:31 main DEBUG> <] output: --------------------
2016/07/24 15:06:31 main INFO> Executing: lvremove -f /dev/vg/SHARE_SNAP
2016/07/24 15:06:31 main DEBUG> >] output: --------------------
Logical volume "SHARE_SNAP" successfully removed
2016/07/24 15:06:31 main DEBUG> <] output: --------------------
2016/07/24 15:06:31 main FATAL> CANCLE EXIT: unknown_error 255
Die nicht lesbare Datei hat die folgenden Rechte (identisch zu den restlichen Dateien im Verzeichnis):
root@mobydick:/var/lib/postgresql/9.1/main/base/16388# ls -la 18468
-rw------- 1 postgres postgres 6168576 23. Jul 15:00 18468
Die MD läuft in Version 7.11.05.
Vielen Dank schonmal im Voraus.
adrian
July 27, 2016, 1:48am
2
Hi,
braucht ihr weitere Infos hier von mir?
Ohne Systemsicherung möchte ich sehr ungerne in Zukunft Updates ausführen, da ja immer etwas schiefgehen kann und wir in der Firma auf die Telefone angewiesen sind …
Hallo Adrian,
ich glaube das schaut nach einem Einzelfall-Problem aus. Wenn du eine kommerzielle Lizenz hast, mach bitte ein Support Ticket auf.
Grüße,
Jan
adrian
July 27, 2016, 9:47am
4
Hallo Jan,
welche Zugangsdaten sind dafür gültig? Die mit denen ich mich auf my.pascom.net einlogge funktionieren leider nicht.
Update:
Ich sehe grade, dass es extra Lizenzen für den E-Mail Support gibt. Kann ich dennoch ein Ticket erstellen? Bin mir auch nicht sicher, was genau in unserer Lizenz nun drinne ist.
Unsere Appliance-ID lautet 12414 mit Wartung bis zum 02.03.2017.
Effektiv muss hier auf jeden Fall eine Lösung her, am System wurde seit der Erstinstallation nichts verändert (Ausser Texten per Telefon aufnehmen für AB etc.). Es wurden lediglich in regelmäßigen Abständen Updates installiert. Auch wenn es sich hier um einen Einzelfall handeln mag, so sehe ich nicht was das von unserer Seite aus verursacht haben könnte und bitte entsprechend um Hilfe.
Update 2:
So wies aussieht ist da ein größerer Fehler. Ich konnte die Datei auch nicht mehr per cp kopieren testweise (PostgreSQL vorher gestoppt). Aufgrund des nachfolgenden Logs vermute ich einen Hardware-Fehler an der Festplatte.
Es handelt sich um eure mobydick Appliance, da sollte solch ein Schaden an der SSD ja abgedeckt sein (Kauf war ja im März 2015).
Im dmesg erhalte ich folgendes:
[1454090.158302] ata2: EH complete
[1454090.172411] ata2.00: exception Emask 0x0 SAct 0x0 SErr 0x0 action 0x0
[1454090.172417] ata2.00: BMDMA stat 0x25
[1454090.172424] ata2.00: failed command: READ DMA
[1454090.172436] ata2.00: cmd c8/00:08:07:51:27/00:00:00:00:00/e1 tag 0 dma 4096 in
[1454090.172439] res 51/40:01:08:51:27/00:00:00:00:00/e1 Emask 0x9 (media error)
[1454090.172446] ata2.00: status: { DRDY ERR }
[1454090.172451] ata2.00: error: { UNC }
[1454090.273954] ata2.00: configured for UDMA/133
[1454090.273983] ata2: EH complete
[1454090.287689] ata2.00: exception Emask 0x0 SAct 0x0 SErr 0x0 action 0x0
[1454090.287696] ata2.00: BMDMA stat 0x25
[1454090.287702] ata2.00: failed command: READ DMA
[1454090.287715] ata2.00: cmd c8/00:08:07:51:27/00:00:00:00:00/e1 tag 0 dma 4096 in
[1454090.287718] res 51/40:01:08:51:27/00:00:00:00:00/e1 Emask 0x9 (media error)
[1454090.287724] ata2.00: status: { DRDY ERR }
[1454090.287729] ata2.00: error: { UNC }
[1454090.397747] ata2.00: configured for UDMA/133
[1454090.397769] ata2: EH complete
[1454090.411483] ata2.00: exception Emask 0x0 SAct 0x0 SErr 0x0 action 0x0
[1454090.411489] ata2.00: BMDMA stat 0x25
[1454090.411496] ata2.00: failed command: READ DMA
[1454090.411508] ata2.00: cmd c8/00:08:07:51:27/00:00:00:00:00/e1 tag 0 dma 4096 in
[1454090.411511] res 51/40:01:08:51:27/00:00:00:00:00/e1 Emask 0x9 (media error)
[1454090.411518] ata2.00: status: { DRDY ERR }
[1454090.411523] ata2.00: error: { UNC }
[1454090.513572] ata2.00: configured for UDMA/133
[1454090.513593] ata2: EH complete
[1454090.527279] ata2.00: exception Emask 0x0 SAct 0x0 SErr 0x0 action 0x0
[1454090.527285] ata2.00: BMDMA stat 0x25
[1454090.527292] ata2.00: failed command: READ DMA
[1454090.527304] ata2.00: cmd c8/00:08:07:51:27/00:00:00:00:00/e1 tag 0 dma 4096 in
[1454090.527307] res 51/40:01:08:51:27/00:00:00:00:00/e1 Emask 0x9 (media error)
[1454090.527314] ata2.00: status: { DRDY ERR }
[1454090.527319] ata2.00: error: { UNC }
[1454090.637359] ata2.00: configured for UDMA/133
[1454090.637382] ata2: EH complete
[1454090.651097] ata2.00: exception Emask 0x0 SAct 0x0 SErr 0x0 action 0x0
[1454090.651103] ata2.00: BMDMA stat 0x25
[1454090.651109] ata2.00: failed command: READ DMA
[1454090.651122] ata2.00: cmd c8/00:08:07:51:27/00:00:00:00:00/e1 tag 0 dma 4096 in
[1454090.651125] res 51/40:01:08:51:27/00:00:00:00:00/e1 Emask 0x9 (media error)
[1454090.651131] ata2.00: status: { DRDY ERR }
[1454090.651136] ata2.00: error: { UNC }
[1454090.753164] ata2.00: configured for UDMA/133
[1454090.753187] ata2: EH complete
[1454090.766864] ata2.00: exception Emask 0x0 SAct 0x0 SErr 0x0 action 0x0
[1454090.766870] ata2.00: BMDMA stat 0x25
[1454090.766877] ata2.00: failed command: READ DMA
[1454090.766889] ata2.00: cmd c8/00:08:07:51:27/00:00:00:00:00/e1 tag 0 dma 4096 in
[1454090.766892] res 51/40:01:08:51:27/00:00:00:00:00/e1 Emask 0x9 (media error)
[1454090.766899] ata2.00: status: { DRDY ERR }
[1454090.766904] ata2.00: error: { UNC }
[1454090.876970] ata2.00: configured for UDMA/133
[1454090.876997] sd 1:0:0:0: [sda] Unhandled sense code
[1454090.877002] sd 1:0:0:0: [sda] Result: hostbyte=DID_OK driverbyte=DRIVER_SENSE
[1454090.877009] sd 1:0:0:0: [sda] Sense Key : Medium Error [current] [descriptor]
[1454090.877018] Descriptor sense data with sense descriptors (in hex):
[1454090.877022] 72 03 11 04 00 00 00 0c 00 0a 80 00 00 00 00 00
[1454090.877040] 01 27 51 08
[1454090.877048] sd 1:0:0:0: [sda] Add. Sense: Unrecovered read error - auto reallocate failed
[1454090.877057] sd 1:0:0:0: [sda] CDB: Read(10): 28 00 01 27 51 07 00 00 08 00
[1454090.877073] end_request: I/O error, dev sda, sector 19353864
[1454090.877122] ata2: EH complete
Da die Datenbanksicherung ja funktioniert sollte es ja theorethisch möglich sein die SSD zu tauschen, ein altes Backup zu installieren (laut Anzeige vom 01.05. …), zu Updaten und die Datenbank zurückzuspielen - korrekt?
In dem Falle müssten aber vermutlich noch die allgemeinen Ansagen und die der Anrufbeantworter manuell kopiert werden? Wie gehen wir hier nun weiter vor?
Viele Grüße
Adrian
adrian
July 28, 2016, 5:24am
5
Thema ist nun als gelöst markiert, da ich nun telefonischen Kontakt hatte und eine RMA-Anfrage getätigt habe.