kann sich jemand erklären warum beide Festplatten auf dem selben Sector einen Fehler haben?

2013-05-08 Thread Mailbox

Hallo Debian Freunde,

kann sich jemand erklären was genau "lost interrupt (Status 0x50)" 
bedeutet bzw. wo ich mich schlau lesen kann im Internet steht viel aber 
eine Erklärung was die einzelnen Logmeldungen überhaupt bedeuten habe 
ich nicht gefunden.



Nun meine Fragen evtl. kann jemand diese beantworten oder einen Hinweis 
geben wo ich diese Info nachlesen kann:
Was bedeutet der Status 0x50 beim lost Interrupt 1. Zeile wie kommt 
dieser zu Stande?

Wie groß sind die Metadaten eines Linux Software RAID 1?
Was für Daten könnten auf dem Sector 25141733 liegen? Sind es die 
Metadaten vom RAID oder schon vom LVM?


Hardware Info:
2 baugleiche Server, mit jeweils baugleichen Festplatten und mit FAI 
baugleich installiert.


Als OS wird Debian Linux Version 6.0.7 mit dem Xen Kernel verwendet.
uname -r
2.6.32-5-xen-amd64

DRBD und LVM für den XEN-Gäste.

Auf allen 4 Festplatten habe ich in den vergangenen Tagen die gleiche 
Fehlermeldung beobachtet, es ist jedesmal der selbe Sector. Die 3 von 4 
Festplatten sind neuen Austauschfestplatten welche seit dem WoEn verbaut 
wurden. Es ist zwar möglich das die Festplatten defekt sind aber sehr 
unwahrscheinlich weil es jedes mal der selbe Sektor ist. Die S-ATA Kabel 
sind auch ausgewechselt worden.


grep "I/O error" /var/log/*
/var/log/kern.log:May  5 22:58:33 lxhs110a kernel: [156062.572522] 
end_request: I/O error, dev sdb, sector 25141733
/var/log/kern.log:May  5 22:58:33 lxhs110a kernel: [156062.636004] 
end_request: I/O error, dev sda, sector 25141733
/var/log/kern.log:May  7 03:14:18 lxhs110a kernel: [257807.626851] 
end_request: I/O error, dev sdb, sector 25141733
/var/log/kern.log:May  7 19:39:58 lxhs110a kernel: [316947.560831] 
end_request: I/O error, dev sdb, sector 25141733
/var/log/syslog.1:May  7 19:39:58 lxhs110a kernel: [316947.560831] 
end_request: I/O error, dev sdb, sector 25141733


grep "I/O error" /var/log/*
/var/log/kern.log:May  7 19:15:12 lxhs110b kernel: [315435.580027] 
end_request: I/O error, dev sda, sector 25141733
/var/log/kern.log:May  7 19:15:12 lxhs110b kernel: [315435.588144] 
end_request: I/O error, dev sdb, sector 25141733


Nun frage ich mich was auf diesem Sector 25141733, liegt? Die 4. 
Partition beginnt mit dem Sector 25141725, und wird für /dev/md2 als 
RAID1 verwendet. Möglich das hier noch Metadaten vom RAID liegen. Das 
Device /dev/md2 wird als PV für das LVM verwendet.

*
*Der Angeblich defekte Sector 25141733 liegt also sehr zu beginn der 4. 
Partition.


fdisk -lu /dev/sdb

Disk /dev/sdb: 750.2 GB, 750156374016 bytes
255 heads, 63 sectors/track, 91201 cylinders, total 1465149168 sectors
Units = sectors of 1 * 512 = 512 bytes
Sector size (logical/physical): 512 bytes / 512 bytes
I/O size (minimum/optimal): 512 bytes / 512 bytes
Disk identifier: 0x0003f32f

   Device Boot  Start End  Blocks   Id  System
/dev/sdb1   *  6310474379 5237158+  fd  Linux raid 
autodetect

/dev/sdb21047438018860309 4192965   82  Linux swap / Solaris
/dev/sdb31886031025141724 3140707+  fd  Linux raid 
autodetect
*/dev/sdb425141725  1465144064   720001170   fd  Linux raid 
autodetect*




Der Komplette Auszug aus dem Logfile lautet:
May  5 22:58:32 lxhs110a kernel: [156061.812045] ata2: lost interrupt 
(Status 0x50)
May  5 22:58:32 lxhs110a kernel: [156061.812061] ata2: exception Emask 
0x10 SAct 0x0 SErr 0x4405 action 0xf
May  5 22:58:32 lxhs110a kernel: [156061.812105] ata2: SError: { 
PHYRdyChg CommWake DevExch }

May  5 22:58:32 lxhs110a kernel: [156061.812145] ata2: hard resetting link
May  5 22:58:32 lxhs110a kernel: [156061.812154] ata1: lost interrupt 
(Status 0x50)
May  5 22:58:32 lxhs110a kernel: [156061.812164] ata1: exception Emask 
0x10 SAct 0x0 SErr 0x4405 action 0xf
May  5 22:58:32 lxhs110a kernel: [156061.812203] ata1: SError: { 
PHYRdyChg CommWake DevExch }

May  5 22:58:32 lxhs110a kernel: [156061.812241] ata1: hard resetting link
May  5 22:58:33 lxhs110a kernel: [156062.536048] ata2: SATA link up 1.5 
Gbps (SStatus 113 SControl 300)
May  5 22:58:33 lxhs110a kernel: [156062.536203] ata1: SATA link up 1.5 
Gbps (SStatus 113 SControl 300)
May  5 22:58:33 lxhs110a kernel: [156062.561071] ata2.00: configured for 
UDMA/133

May  5 22:58:33 lxhs110a kernel: [156062.561097] ata2: EH complete
May  5 22:58:33 lxhs110a kernel: [156062.568968] ata1.00: configured for 
UDMA/133

May  5 22:58:33 lxhs110a kernel: [156062.568978] ata1: EH complete
May  5 22:58:33 lxhs110a kernel: [156062.572522] *end_request: I/O 
error, dev sdb, sector 25141733*
May  5 22:58:33 lxhs110a kernel: [156062.572569] md: super_written gets 
error=-5, uptodate=0
May  5 22:58:33 lxhs110a kernel: [156062.572574] raid1: Disk failure on 
sdb4, disabling device.
May  5 22:58:33 lxhs110a kernel: [156062.572576] raid1: Operation 
continuing on 1 devices.
May  5 22:58:33 lxhs110a kernel: [156062.636004] *end_request: I/O 
error, dev sda, sector 25141733*
May  5 22:58:33 lxhs110a kernel: [15606

can someone explain what is happen on line one from this listing?

2013-05-09 Thread Mailbox

Hello Developer Group,

can someone explain what is happen on line one from this listing?

why i loos the interrupt?

what is the Status 0x50?

has someone a idea in which Documentation an can finde more informations 
about 0x50?


May  7 19:39:57 lxhs110a kernel: [316946.812055] ata2: lost interrupt 
(Status 0x50)
May  7 19:39:57 lxhs110a kernel: [316946.812072] ata2: exception Emask 
0x10 SAct 0x0 SErr 0x4405 action 0xf
May  7 19:39:57 lxhs110a kernel: [316946.812116] ata2: SError: { 
PHYRdyChg CommWake DevExch }

May  7 19:39:57 lxhs110a kernel: [316946.812156] ata2: hard resetting link
May  7 19:39:58 lxhs110a kernel: [316947.536038] ata2: SATA link up 1.5 
Gbps (SStatus 113 SControl 300)
May  7 19:39:58 lxhs110a kernel: [316947.560823] ata2.00: configured for 
UDMA/133
May  7 19:39:58 lxhs110a kernel: [316947.560831] end_request: I/O error, 
dev sdb, sector 25141733
May  7 19:39:58 lxhs110a kernel: [316947.560876] md: super_written gets 
error=-5, uptodate=0
May  7 19:39:58 lxhs110a kernel: [316947.560880] raid1: Disk failure on 
sdb4, disabling device.
May  7 19:39:58 lxhs110a kernel: [316947.560881] raid1: Operation 
continuing on 1 devices.

May  7 19:39:58 lxhs110a kernel: [316947.560962] ata2: EH complete
May  7 19:39:58 lxhs110a kernel: [316947.595196] RAID1 conf printout:
May  7 19:39:58 lxhs110a kernel: [316947.595198]  --- wd:1 rd:2
May  7 19:39:58 lxhs110a kernel: [316947.595201]  disk 0, wo:1, o:0, 
dev:sdb4
May  7 19:39:58 lxhs110a kernel: [316947.595203]  disk 1, wo:0, o:1, 
dev:sda4

May  7 19:39:58 lxhs110a kernel: [316947.608009] RAID1 conf printout:
May  7 19:39:58 lxhs110a kernel: [316947.608011]  --- wd:1 rd:2
May  7 19:39:58 lxhs110a kernel: [316947.608013]  disk 1, wo:0, o:1, 
dev:sda4


thanks
Paulo


--
To UNSUBSCRIBE, email to debian-devel-requ...@lists.debian.org
with a subject of "unsubscribe". Trouble? Contact listmas...@lists.debian.org
Archive: http://lists.debian.org/518b8c73.20...@ai-t.eu



Re: can someone explain what is happen on line one from this listing?

2013-05-10 Thread Mailbox

Hello all,

i aks this list because i will now more about the "lost Interrupt 0x50) 
error.
A faulty hard disk, makes other Logentries and this disk are replace by 
the vendor this disk is a new/refurbished disk.


I have test with other Serverhardware what is happen if i put out the 
power cabel from the disk. it is interesting but in all my test/hacks i 
never have see a "lost interrupt"


why i loos this interrupt?

bye

Paulo

Am 09.05.2013 20:43, schrieb Istimsak Abdulbasir:


It seems you have a faulty hard disk.

Istimsak abdulbsir

On May 9, 2013 7:47 AM, "Mailbox" <mailto:maill...@ai-t.eu>> wrote:


Hello Developer Group,

can someone explain what is happen on line one from this listing?

why i loos the interrupt?

what is the Status 0x50?

has someone a idea in which Documentation an can finde more
informations about 0x50?

May  7 19:39:57 lxhs110a kernel: [316946.812055] ata2: lost
interrupt (Status 0x50)
May  7 19:39:57 lxhs110a kernel: [316946.812072] ata2: exception
Emask 0x10 SAct 0x0 SErr 0x4405 action 0xf
May  7 19:39:57 lxhs110a kernel: [316946.812116] ata2: SError: {
PHYRdyChg CommWake DevExch }
May  7 19:39:57 lxhs110a kernel: [316946.812156] ata2: hard
resetting link
May  7 19:39:58 lxhs110a kernel: [316947.536038] ata2: SATA link
up 1.5 Gbps (SStatus 113 SControl 300)
May  7 19:39:58 lxhs110a kernel: [316947.560823] ata2.00:
configured for UDMA/133
May  7 19:39:58 lxhs110a kernel: [316947.560831] end_request: I/O
error, dev sdb, sector 25141733
May  7 19:39:58 lxhs110a kernel: [316947.560876] md: super_written
gets error=-5, uptodate=0
May  7 19:39:58 lxhs110a kernel: [316947.560880] raid1: Disk
failure on sdb4, disabling device.
May  7 19:39:58 lxhs110a kernel: [316947.560881] raid1: Operation
continuing on 1 devices.
May  7 19:39:58 lxhs110a kernel: [316947.560962] ata2: EH complete
May  7 19:39:58 lxhs110a kernel: [316947.595196] RAID1 conf printout:
May  7 19:39:58 lxhs110a kernel: [316947.595198]  --- wd:1 rd:2
May  7 19:39:58 lxhs110a kernel: [316947.595201]  disk 0, wo:1,
o:0, dev:sdb4
May  7 19:39:58 lxhs110a kernel: [316947.595203]  disk 1, wo:0,
o:1, dev:sda4
May  7 19:39:58 lxhs110a kernel: [316947.608009] RAID1 conf printout:
May  7 19:39:58 lxhs110a kernel: [316947.608011]  --- wd:1 rd:2
May  7 19:39:58 lxhs110a kernel: [316947.608013]  disk 1, wo:0,
o:1, dev:sda4

thanks
Paulo


-- 
To UNSUBSCRIBE, email to debian-devel-requ...@lists.debian.org

<mailto:debian-devel-requ...@lists.debian.org>
with a subject of "unsubscribe". Trouble? Contact
listmas...@lists.debian.org <mailto:listmas...@lists.debian.org>
Archive: http://lists.debian.org/518b8c73.20...@ai-t.eu