<br><br>
<div class="gmail_quote">On Wed, Feb 9, 2011 at 4:22 PM, Bronevetsky, Greg <span dir="ltr"><<a href="mailto:bronevetsky1@llnl.gov">bronevetsky1@llnl.gov</a>></span> wrote:<br>
<blockquote class="gmail_quote" style="PADDING-LEFT: 1ex; MARGIN: 0px 0px 0px 0.8ex; BORDER-LEFT: #ccc 1px solid">
<div lang="EN-US" vlink="purple" link="blue">
<div>
<div class="im">
<p class="MsoNormal" style="MARGIN-LEFT: 0.5in"> </p>
<p class="MsoNormal" style="MARGIN-BOTTOM: 12pt; MARGIN-LEFT: 0.5in; MARGIN-RIGHT: 0in">
<p class="MsoNormal"><span style="FONT-SIZE: 11pt; COLOR: #1f497d"></span></p><span style="FONT-SIZE: 11pt; COLOR: #1f497d">If the workers use communicators that are MPI_ERRORS_FATAL, if there is a disconnect with the master, they will be automatically aborted. Meanwhile, the master will be informed about their “failure” because of the disconnect and when connection to the physical nodes that previously hosted the aborted workers is re-established, the master’s MPI library will see that worker tasks are dead and will not need to kill the master.</span><span style="FONT-SIZE: 11pt; COLOR: #1f497d"> </span>
<p></p></p></div></div></div></blockquote>
<div> </div>
<div>From the user guide I did not understand that there is this kind of 'interoperability' between the different error handlers. For instance the user guide says 'The application must opt-in to the fault tolerance semantics by replacing the default error handler'.</div>

<div> </div>
<div>toon</div>
<div> </div>
<div> </div></div>