<br><br>
<div class="gmail_quote">On Wed, Feb 9, 2011 at 4:22 PM, Bronevetsky, Greg <span dir="ltr"><<a href="mailto:bronevetsky1@llnl.gov">bronevetsky1@llnl.gov</a>></span> wrote:<br>
<blockquote class="gmail_quote" style="PADDING-LEFT: 1ex; MARGIN: 0px 0px 0px 0.8ex; BORDER-LEFT: #ccc 1px solid">
<div lang="EN-US" vlink="purple" link="blue">
<div>
<div class="im">
<p class="MsoNormal" style="MARGIN-LEFT: 0.5in">�</p>
<p class="MsoNormal" style="MARGIN-BOTTOM: 12pt; MARGIN-LEFT: 0.5in; MARGIN-RIGHT: 0in">
<p class="MsoNormal"><span style="FONT-SIZE: 11pt; COLOR: #1f497d"></span></p><span style="FONT-SIZE: 11pt; COLOR: #1f497d">If the workers use communicators that are MPI_ERRORS_FATAL, if there is a disconnect with the master, they will be automatically aborted. Meanwhile, the master will be informed about their �failure� because of the disconnect and when connection to the physical nodes that previously hosted the aborted workers is re-established, the master�s MPI library will see that worker tasks are dead and will not need to kill the master.</span><span style="FONT-SIZE: 11pt; COLOR: #1f497d">�</span>
<p></p></p></div></div></div></blockquote>
<div>�</div>
<div>From the user guide I did not understand that there is this kind of 'interoperability' between the different error handlers. For instance the user guide says 'The application must opt-in to the fault tolerance semantics by replacing the default error handler'.</div>

<div>�</div>
<div>toon</div>
<div>�</div>
<div>�</div></div>