<html>
<head>
<meta http-equiv="Content-Type" content="text/html; charset=utf-8">
</head>
<body style="word-wrap: break-word; -webkit-nbsp-mode: space; line-break: after-white-space;" class="">
<div class="">Here's the notes from today's meeting:</div>
<div class=""><br class="">
</div>
<div class="">Note that we are <b class="">cancelling</b> next week's call due to the SC submission deadline and to give us time to work on reorganizing the text for the proposals.</div>
<div class=""><br class="">
</div>
<div class=""><a href="https://github.com/mpiwg-ft/ft-issues/wiki/2018-03-21" class="">https://github.com/mpiwg-ft/ft-issues/wiki/2018-03-21</a></div>
<div class=""><br class="">
</div>
<div class="">
<div class="">Thanks,</div>
<div class="">Wesley</div>
</div>
<div class=""><br class="">
</div>
Attendees<br class="">
<br class="">
<div class=""><span class="Apple-tab-span" style="white-space:pre"></span>• Intel - Wesley, Rob<br class="">
</div>
<div class=""><span class="Apple-tab-span" style="white-space:pre"></span>• Argonne - Yanfei<br class="">
</div>
<div class=""><span class="Apple-tab-span" style="white-space:pre"></span>• UTK - Aurelien<br class="">
</div>
<div class=""><span class="Apple-tab-span" style="white-space:pre"></span>• LLNL - Ignacio<br class="">
</div>
<br class="">
Agenda<br class="">
<br class="">
<div class=""><span class="Apple-tab-span" style="white-space:pre"></span>• Noncatastrophic Errors and Error Handling Wrapup<br class="">
</div>
<div class=""><span class="Apple-tab-span" style="white-space:pre"></span>• ULFM Plans<br class="">
</div>
<br class="">
Non Catastrophic Errors<br class="">
<br class="">
<div class=""><span class="Apple-tab-span" style="white-space:pre"></span>• Made some minor edits to the proposal based on feedback from February 2018 meeting<br class="">
</div>
<div class=""><span class="Apple-tab-span" style="white-space:pre"></span>• We'll need to read for a no-no vote at the June 2018 meeting<br class="">
</div>
<br class="">
Error Handling Wrap-up<br class="">
<br class="">
<div class=""><span class="Apple-tab-span" style="white-space:pre"></span>• 1st vote passed even after discussion of intercommunicator error handling<br class="">
</div>
<div class=""><span class="Apple-tab-span" style="white-space:pre"></span>• 2nd vote scheduled for June 2018 meeting<br class="">
</div>
<br class="">
ULFM<br class="">
<br class="">
<div class=""><span class="Apple-tab-span" style="white-space:pre"></span>• Aurelien attempted a reading of the full ticket<br class="">
</div>
<div class=""><span class="Apple-tab-span" style="white-space:pre"></span>• Feedback started by Martin but echoed by others in the forum (Dan, Tony, etc.) was that they are still uncomfortable with this proposal and would like to see it broken into multiple
 pieces:<br class="">
</div>
<div class=""><span class="Apple-tab-span" style="white-space:pre"></span>• Error Notification and Discovery<br class="">
</div>
<div class=""><span class="Apple-tab-span" style="white-space:pre"></span>• New error class:  MPI_ERR_PROC_FAILED<br class="">
</div>
<div class=""><span class="Apple-tab-span" style="white-space:pre"></span>• New API functions: MPI_COMM_FAILURE_ACK & MPI_COMM_FAILURE_GET_ACKED<br class="">
</div>
<div class=""><span class="Apple-tab-span" style="white-space:pre"></span>• Agreement<br class="">
</div>
<div class=""><span class="Apple-tab-span" style="white-space:pre"></span>• MPI_COMM_AGREE<br class="">
</div>
<div class=""><span class="Apple-tab-span" style="white-space:pre"></span>• Recovery<br class="">
</div>
<div class=""><span class="Apple-tab-span" style="white-space:pre"></span>• MPI_COMM_REVOKE & MPI_COMM_SHRINK<br class="">
</div>
<div class=""><span class="Apple-tab-span" style="white-space:pre"></span>• These pieces are the most contentious, particularly for Martin who believe the asynchronous failure notification but synchronous recovery introduces a deadlock problem.<br class="">
</div>
<div class=""><span class="Apple-tab-span" style="white-space:pre"></span>• 1 & 2 above can probably be accepted quickly and could form the basis of basic-FT to provide reliable a point-to-point model.<br class="">
</div>
<div class=""><span class="Apple-tab-span" style="white-space:pre"></span>• We would need to keep working to figure out the best way to repair/replace communicators to enable collectives, RMA, Files, etc.<br class="">
</div>
<div class=""><span class="Apple-tab-span" style="white-space:pre"></span>• Ignacio mentioned user that really only care about point-to-point so they can construct their own collectives.<br class="">
</div>
<div class=""><span class="Apple-tab-span" style="white-space:pre"></span>• As a WG, we agreed to work on splitting ULFM as described above.<br class="">
</div>
<div class=""><span class="Apple-tab-span" style="white-space:pre"></span>• Aurelien will start this work and bring it back to the WG for future discussion.<br class="">
</div>
<div class=""><span class="Apple-tab-span" style="white-space:pre"></span>• We don't expect a lot of progress over the next two weeks during the SC submission period.</div>
</body>
</html>