Re: 转发: namdenode question consultation and advice

Gurmukh Singh Sat, 29 Dec 2018 05:32:44 -0800

Your disk seems to be an issue, which is causing Journal node timeout.



Do, benchmarks on the disks for namenode, zk and JQM


On 3/12/18 2:08 pm, 白 瑶瑶 wrote:

------------------------------------------------------------------------
*发件人:* 白 瑶瑶 代表 白 瑶瑶 <[email protected]>
*发送时间:* 2018年10月18日 10:33
*主题:* namdenode question consultation and advice

Hi :
My production Hadoop cluster (HA) has recently had a problem with twonamenode hanging up frequently, causing errors that I couldn'tresolve,The same is true of the namenode in the active state when thefollowing error occurs after the crash, and the namenode in thestandby state cannot be switched. The error is as follows:
2018-10-18 15:51:36,311 INFOorg.apache.hadoop.hdfs.server.namenode.FSNamesystem: Roll Edit Logfrom 10.117.29.242018-10-18 15:51:36,311 INFOorg.apache.hadoop.hdfs.server.namenode.FSEditLog: Rolling edit logs2018-10-18 15:51:36,311 INFOorg.apache.hadoop.hdfs.server.namenode.FSEditLog: Ending log segment34209352018-10-18 15:51:38,738 INFOorg.apache.hadoop.hdfs.server.namenode.FSEditLog: Number oftransactions: 19 Total time for transactions(ms): 2 Number oftransactions batched in Syncs: 0 Number of syncs: 10 SyncTimes(ms):180 25252018-10-18 15:51:38,765 INFOorg.apache.hadoop.hdfs.server.namenode.FileJournalManager: Finalizingedits file/data/hadoop/tmp/dfs/name/current/edits_inprogress_0000000000003420935->/data/hadoop/tmp/dfs/name/current/edits_0000000000003420935-00000000000034209532018-10-18 15:51:38,765 INFOorg.apache.hadoop.hdfs.server.namenode.FSEditLog: Starting log segmentat 34209542018-10-18 15:51:44,767 INFOorg.apache.hadoop.hdfs.qjournal.client.QuorumJournalManager: Waited6001 ms (timeout=20000 ms) for a response forstartLogSegment(3420954). Succeeded so far: [10.117.29.25:8485]2018-10-18 15:51:45,768 INFOorg.apache.hadoop.hdfs.qjournal.client.QuorumJournalManager: Waited7002 ms (timeout=20000 ms) for a response forstartLogSegment(3420954). Succeeded so far: [10.117.29.25:8485]2018-10-18 15:51:46,769 INFOorg.apache.hadoop.hdfs.qjournal.client.QuorumJournalManager: Waited8003 ms (timeout=20000 ms) for a response forstartLogSegment(3420954). Succeeded so far: [10.117.29.25:8485]2018-10-18 15:51:47,770 INFOorg.apache.hadoop.hdfs.qjournal.client.QuorumJournalManager: Waited9004 ms (timeout=20000 ms) for a response forstartLogSegment(3420954). Succeeded so far: [10.117.29.25:8485]2018-10-18 15:51:48,771 INFOorg.apache.hadoop.hdfs.qjournal.client.QuorumJournalManager: Waited10005 ms (timeout=20000 ms) for a response forstartLogSegment(3420954). Succeeded so far: [10.117.29.25:8485]2018-10-18 15:51:49,771 INFOorg.apache.hadoop.hdfs.qjournal.client.QuorumJournalManager: Waited11006 ms (timeout=20000 ms) for a response forstartLogSegment(3420954). Succeeded so far: [10.117.29.25:8485]2018-10-18 15:51:50,773 INFOorg.apache.hadoop.hdfs.qjournal.client.QuorumJournalManager: Waited12007 ms (timeout=20000 ms) for a response forstartLogSegment(3420954). Succeeded so far: [10.117.29.25:8485]2018-10-18 15:51:51,774 INFOorg.apache.hadoop.hdfs.qjournal.client.QuorumJournalManager: Waited13008 ms (timeout=20000 ms) for a response forstartLogSegment(3420954). Succeeded so far: [10.117.29.25:8485]2018-10-18 15:51:52,774 WARNorg.apache.hadoop.hdfs.qjournal.client.QuorumJournalManager: Waited14009 ms (timeout=20000 ms) for a response forstartLogSegment(3420954). Succeeded so far: [10.117.29.25:8485]2018-10-18 15:51:53,776 WARNorg.apache.hadoop.hdfs.qjournal.client.QuorumJournalManager: Waited15010 ms (timeout=20000 ms) for a response forstartLogSegment(3420954). Succeeded so far: [10.117.29.25:8485]2018-10-18 15:51:54,777 WARNorg.apache.hadoop.hdfs.qjournal.client.QuorumJournalManager: Waited16011 ms (timeout=20000 ms) for a response forstartLogSegment(3420954). Succeeded so far: [10.117.29.25:8485]2018-10-18 15:51:55,778 WARNorg.apache.hadoop.hdfs.qjournal.client.QuorumJournalManager: Waited17013 ms (timeout=20000 ms) for a response forstartLogSegment(3420954). Succeeded so far: [10.117.29.25:8485]2018-10-18 15:51:56,780 WARNorg.apache.hadoop.hdfs.qjournal.client.QuorumJournalManager: Waited18014 ms (timeout=20000 ms) for a response forstartLogSegment(3420954). Succeeded so far: [10.117.29.25:8485]2018-10-18 15:51:57,781 WARNorg.apache.hadoop.hdfs.qjournal.client.QuorumJournalManager: Waited19015 ms (timeout=20000 ms) for a response forstartLogSegment(3420954). Succeeded so far: [10.117.29.25:8485]2018-10-18 15:51:58,767 FATALorg.apache.hadoop.hdfs.server.namenode.FSEditLog: Error: starting logsegment 3420954 failed for required journal (JournalAndStream(mgr=QJMto [10.117.29.25:8485, 10.117.29.24:8485, 10.117.29.23:8485],stream=null))java.io.IOException: Timed out waiting 20000ms for a quorum of nodesto respond. atorg.apache.hadoop.hdfs.qjournal.client.AsyncLoggerSet.waitForWriteQuorum(AsyncLoggerSet.java:137) atorg.apache.hadoop.hdfs.qjournal.client.QuorumJournalManager.startLogSegment(QuorumJournalManager.java:403) atorg.apache.hadoop.hdfs.server.namenode.JournalSet$JournalAndStream.startLogSegment(JournalSet.java:107) atorg.apache.hadoop.hdfs.server.namenode.JournalSet$3.apply(JournalSet.java:222) atorg.apache.hadoop.hdfs.server.namenode.JournalSet.mapJournalsAndReportErrors(JournalSet.java:393) atorg.apache.hadoop.hdfs.server.namenode.JournalSet.startLogSegment(JournalSet.java:219) atorg.apache.hadoop.hdfs.server.namenode.FSEditLog.startLogSegment(FSEditLog.java:1237) atorg.apache.hadoop.hdfs.server.namenode.FSEditLog.rollEditLog(FSEditLog.java:1206) atorg.apache.hadoop.hdfs.server.namenode.FSImage.rollEditLog(FSImage.java:1300) atorg.apache.hadoop.hdfs.server.namenode.FSNamesystem.rollEditLog(FSNamesystem.java:5836) atorg.apache.hadoop.hdfs.server.namenode.NameNodeRpcServer.rollEditLog(NameNodeRpcServer.java:1122) atorg.apache.hadoop.hdfs.protocolPB.NamenodeProtocolServerSideTranslatorPB.rollEditLog(NamenodeProtocolServerSideTranslatorPB.java:142) atorg.apache.hadoop.hdfs.protocol.proto.NamenodeProtocolProtos$NamenodeProtocolService$2.callBlockingMethod(NamenodeProtocolProtos.java:12025) atorg.apache.hadoop.ipc.ProtobufRpcEngine$Server$ProtoBufRpcInvoker.call(ProtobufRpcEngine.java:616)
        at org.apache.hadoop.ipc.RPC$Server.call(RPC.java:982)
        at org.apache.hadoop.ipc.Server$Handler$1.run(Server.java:2049)
        at org.apache.hadoop.ipc.Server$Handler$1.run(Server.java:2045)
        at java.security.AccessController.doPrivileged(Native Method)
        at javax.security.auth.Subject.doAs(Subject.java:422)
atorg.apache.hadoop.security.UserGroupInformation.doAs(UserGroupInformation.java:1698)
        at org.apache.hadoop.ipc.Server$Handler.run(Server.java:2043)
2018-10-18 15:51:58,768 INFO org.apache.hadoop.util.ExitUtil: Exitingwith status 12018-10-18 15:51:58,773 INFOorg.apache.hadoop.hdfs.server.namenode.NameNode: SHUTDOWN_MSG:
/************************************************************
SHUTDOWN_MSG: Shutting down NameNode at kvmserver25/10.117.29.25
************************************************************/
2018-10-18 16:04:13,143 INFOorg.apache.hadoop.hdfs.server.namenode.NameNode: STARTUP_MSG:
/************************************************************
STARTUP_MSG: Starting NameNode
STARTUP_MSG:   host = kvmserver25/10.117.29.25
I want to ask, under what circumstances will this mistake occur, orwhat good suggestions do you have?
thank you.

 BAI

Re: 转发: namdenode question consultation and advice

Reply via email to