<html>
<head>
<meta http-equiv="Content-Type" content="text/html; charset=us-ascii">
<meta name="Generator" content="Microsoft Exchange Server">
<!-- converted from rtf -->
<style><!-- .EmailQuote { margin-left: 1pt; padding-left: 4pt; border-left: #800000 2px solid; } --></style>
</head>
<body>
<font face="Calibri, sans-serif" size="2">
<div>Hello all,</div>
<div> </div>
<div>In our last meeting we decided to build a set of FT scenarios/programs to help us understand the details of the interface need to support those scenarios. We also decided to start with very simple scenarios and add more complex ones as we understand the
former better.  I hope that starting with simple scenarios will help us build a solid foundation on which we can build the more complex solutions.</div>
<div> </div>
<div>When we build an FT solution we will focus on the scenario as described, without complicating the solution just because it would be needed later for a more complex one. The time will come later to modify the solution as we acquire more knowledge and built
the foundations. Hence, any proposal or change that we make needs to fit <u><i>exactly</i></u> the scenario (and all those that we previously looked at) but no more.</div>
<div>For example in the first scenario that we’ll look at there is no need for saving communicator state or error callback; but they might be required later.</div>
<div> </div>
<div>Note that these scenarios focus on process FT rather than checkpoint/restart or network degradation. I assume we’ll do the latter later.</div>
<div style="margin-top: 24pt; "><font face="Cambria, serif" size="4" color="#365F91"><b>Scenario #1: </b><b>Very </b><b>Simple Master</b><b>-</b><b>Workers</b></font></div>
<div style="margin-top: 10pt; "><font face="Cambria, serif" size="3" color="#4F81BD"><b>Description</b></font></div>
<div>This is a very simple master-workers scenario. However simple, we were asked many times by customers to support FT in this scenario.</div>
<div>In this case the MPI application running with n processes, where rank 0 is used as the master and n-1 ranks are used as workers.  The master generates work (either by getting it directly from user input, or reading a file) and sends it for processing to
a free worker rank. The master sends requests and receives replies using MPI point-to-point communication.  The workers wait for the incoming message, upon arrival the worker computes the result and sends it back to the master.  The master stores the result
to a log file.</div>
<div> </div>
<div><b>Hardening</b>: The goal is to harden the workers, the master itself is not FT, thus if it fails the entire application fails. In this case the workers are FT, and are replaced to keep computation power for this application. (a twist: if a worker cannot
be recovered the master can work with a smaller set of clients up to a low watermark).</div>
<div style="margin-top: 10pt; "><font face="Cambria, serif" size="3" color="#4F81BD"><b>Worker</b></font></div>
<div>The worker waits on a blocking receive when a message arrives it process it. If a <i>done</i> message arrives the worker finalizes MPI and exit normally.</div>
<div> </div>
<div><b>Hardening</b>: There is not special requirement for hardening here. If the worker encounters a communication problem with the master, it means that the master is down and it’s okay to abort the entire job. Thus, it will use the default error handler
(which aborts on errors).  Note that we do not need to modify the client at all to make the application FT (except the master).</div>
<div> </div>
<div>Pseudo code for the hardened worker:</div>
<div style="background-color: #D9D9D9;pt; "><font face="Courier New, monospace" size="2" color="#548DD4"><span style="background-color:#FFFFFF">int</span><font color="#000000"><span style="background-color:#FFFFFF"> main()</span></font></font></div>
<div style="background-color: #D9D9D9;pt; "><font face="Courier New, monospace" size="2"><span style="background-color:#FFFFFF">{</span></font></div>
<div style="background-color: #D9D9D9;pt; "><font face="Courier New, monospace" size="2"><span style="background-color:#FFFFFF">    </span><font color="#984806"><span style="background-color:#FFFFFF">MPI_Init</span></font><span style="background-color:#FFFFFF">()</span></font></div>
<div style="background-color: #D9D9D9;pt; "> </div>
<div style="background-color: #D9D9D9;pt; "><font face="Courier New, monospace" size="2"><span style="background-color:#FFFFFF">    </span><font color="#548DD4"><span style="background-color:#FFFFFF">for</span></font><span style="background-color:#FFFFFF">(;;)</span></font></div>
<div style="background-color: #D9D9D9;pt; "><font face="Courier New, monospace" size="2"><span style="background-color:#FFFFFF">    {</span></font></div>
<div style="background-color: #D9D9D9;pt; "><font face="Courier New, monospace" size="2"><span style="background-color:#FFFFFF">        </span><font color="#984806"><span style="background-color:#FFFFFF">MPI_Recv</span></font><span style="background-color:#FFFFFF">(src=0,
</span><span style="background-color:#FFFFFF">&query</span><span style="background-color:#FFFFFF">, MPI_COMM_WORLD</span><span style="background-color:#FFFFFF">)</span><span style="background-color:#FFFFFF">;</span></font></div>
<div style="background-color: #D9D9D9;pt; "><font face="Courier New, monospace" size="2"><span style="background-color:#FFFFFF">        </span><font color="#548DD4"><span style="background-color:#FFFFFF">if</span></font><span style="background-color:#FFFFFF">(</span><span style="background-color:#FFFFFF">is_done_msg(</span><span style="background-color:#FFFFFF">query</span><span style="background-color:#FFFFFF">)</span><span style="background-color:#FFFFFF">)</span></font></div>
<div style="background-color: #D9D9D9;pt; "><font face="Courier New, monospace" size="2"><span style="background-color:#FFFFFF">            </span><span style="background-color:#FFFFFF"><b>break</b></span><span style="background-color:#FFFFFF">;</span></font></div>
<div style="background-color: #D9D9D9;pt; "> </div>
<div style="background-color: #D9D9D9;pt; "><font face="Courier New, monospace" size="2"><span style="background-color:#FFFFFF">        </span><span style="background-color:#FFFFFF">process_query</span><span style="background-color:#FFFFFF">(</span><span style="background-color:#FFFFFF">&query</span><span style="background-color:#FFFFFF">,
</span><span style="background-color:#FFFFFF">&answer</span><span style="background-color:#FFFFFF">)</span><span style="background-color:#FFFFFF">;</span></font></div>
<div style="background-color: #D9D9D9;pt; "> </div>
<div style="background-color: #D9D9D9;pt; "><font face="Courier New, monospace" size="2"><span style="background-color:#FFFFFF">        </span><font color="#984806"><span style="background-color:#FFFFFF">MPI_Send</span></font><span style="background-color:#FFFFFF">(dst=0,
</span><span style="background-color:#FFFFFF">&answer</span><span style="background-color:#FFFFFF">, MPI_COMM_WORLD);</span></font></div>
<div style="background-color: #D9D9D9;pt; "><font face="Courier New, monospace" size="2"><span style="background-color:#FFFFFF">    }</span></font></div>
<div style="background-color: #D9D9D9;pt; "><font face="Courier New, monospace" size="2"> </font></div>
<div style="background-color: #D9D9D9;pt; "><font face="Courier New, monospace" size="2"><span style="background-color:#FFFFFF">    </span><font color="#984806"><span style="background-color:#FFFFFF">MPI_Finalize</span></font><span style="background-color:#FFFFFF">()</span></font></div>
<div style="background-color: #D9D9D9;pt; "><font face="Courier New, monospace" size="2"><span style="background-color:#FFFFFF">}</span></font></div>
<div style="background-color: #D9D9D9;pt; "> </div>
<div> </div>
<div>Notice that for this FT code there is no requirement for the worker to rejoin the comm. As the only communicator used is MPI_COMM_WORLD.</div>
<div> </div>
<div style="margin-top: 10pt; "><font face="Cambria, serif" size="3" color="#4F81BD"><b>Master</b></font></div>
<div>The master code reads queries from a stream and passes them on to the workers to process. The master goes through several phases. In the initialization phase it sends the first request to each one of the ranks; in the second one it shuts down any unnecessary
ranks (if the job is too small); I the third phase it enters its progress engine where it handles replies (answers), process recovery and termination (on input end).</div>
<div> </div>
<div><b>Hardening</b>: It is the responsibility of the master to restart any failing workers and make sure that the request (query) did not get lost if a worker fails. Hence, every time an error is detected the master will move the worker into repairing state
and move its workload to other workers.</div>
<div>The master runs with errors returned rather than aborted</div>
<div> </div>
<div><i>One thing to note about </i><i>the following </i><i>code</i><i>:</i><i> </i><i>i</i><i>t is not </i><i>optimized</i><i>.</i><i> I did not try to </i><i>overlap</i><i> </i><i>computation</i><i> with communication (</i><i>which</i><i> is </i><i>possible</i><i>)
I tried to keep i</i><i>t as simple as </i><i>possible</i><i> for the purpose of discussion.</i></div>
<div> </div>
<div>Pseudo code for the hardened master; the code needed for repairing the failed ranks is highlighted in yellow.</div>
<div style="background-color: #D9D9D9;pt; "><font face="Courier New, monospace" size="2" color="#548DD4"><span style="background-color:#FFFFFF">int</span><font color="#000000"><span style="background-color:#FFFFFF"> main()</span></font></font></div>
<div style="background-color: #D9D9D9;pt; "><font face="Courier New, monospace" size="2"><span style="background-color:#FFFFFF">{</span></font></div>
<div style="background-color: #D9D9D9;pt; "><font face="Courier New, monospace" size="2"><span style="background-color:#FFFFFF">    </span><font color="#984806"><span style="background-color:#FFFFFF">MPI_Init</span></font><span style="background-color:#FFFFFF">()</span></font></div>
<div style="background-color: #D9D9D9;pt; "><font face="Courier New, monospace" size="2"><span style="background-color:#FFFF00">>>></span><span style="background-color:#FFFF00"> </span><font color="#984806"><span style="background-color:#FFFF00">MPI_Comm_set_errhandler</span></font><span style="background-color:#FFFF00">(</span><span style="background-color:#FFFF00">MPI_COMM_WORLD</span><span style="background-color:#FFFF00">,
</span><span style="background-color:#FFFF00">MPI_ERRORS_RETURN</span><span style="background-color:#FFFF00">);</span></font></div>
<div style="background-color: #D9D9D9;pt; "><font face="Courier New, monospace" size="2"><span style="background-color:#FFFFFF">    </span><font color="#984806"><span style="background-color:#FFFFFF">MPI_Comm_size</span></font><span style="background-color:#FFFFFF">(MPI_COMM_WORLD,
&n);</span></font></div>
<div style="background-color: #D9D9D9;pt; "> </div>
<div style="background-color: #D9D9D9;pt; "><font face="Courier New, monospace" size="2"><span style="background-color:#FFFFFF">    MPI_Request</span><span style="background-color:#FFFFFF"> r[n]</span><span style="background-color:#FFFFFF"> = MPI_REQUEST_NULL</span><span style="background-color:#FFFFFF">;</span></font></div>
<div style="background-color: #D9D9D9;pt; "><font face="Courier New, monospace" size="2"><span style="background-color:#FFFFFF">    </span><span style="background-color:#FFFFFF">Query</span><span style="background-color:#FFFFFF">Message </span><span style="background-color:#FFFFFF">q</span><span style="background-color:#FFFFFF">[n];</span></font></div>
<div style="background-color: #D9D9D9;pt; "><font face="Courier New, monospace" size="2"><span style="background-color:#FFFFFF">    AnswerMessage a[n];</span></font></div>
<div style="background-color: #D9D9D9;pt; "><font face="Courier New, monospace" size="2"><span style="background-color:#FFFFFF">    </span><font color="#548DD4"><span style="background-color:#FFFFFF">i</span></font><font color="#548DD4"><span style="background-color:#FFFFFF">nt</span></font><span style="background-color:#FFFFFF">
</span><span style="background-color:#FFFFFF">active_workers</span><span style="background-color:#FFFFFF"> = </span><span style="background-color:#FFFFFF">0</span><span style="background-color:#FFFFFF">;</span></font></div>
<div style="background-color: #D9D9D9;pt; "> </div>
<div style="background-color: #D9D9D9;pt; "><font face="Courier New, monospace" size="2"><span style="background-color:#FFFF00">>>></span><span style="background-color:#FFFF00"> </span><font color="#548DD4"><span style="background-color:#FFFF00">bool</span></font><span style="background-color:#FFFF00">
repairing[n] = false;</span></font></div>
<div style="background-color: #D9D9D9;pt; "> </div>
<div style="background-color: #D9D9D9;pt; "><font face="Courier New, monospace" size="2"><span style="background-color:#FFFFFF">    //</span></font></div>
<div style="background-color: #D9D9D9;pt; "><font face="Courier New, monospace" size="2"><span style="background-color:#FFFFFF">    // Phase 1: send </span><span style="background-color:#FFFFFF">initial</span><span style="background-color:#FFFFFF"> requests</span></font></div>
<div style="background-color: #D9D9D9;pt; "><font face="Courier New, monospace" size="2"><span style="background-color:#FFFFFF">    //</span></font></div>
<div style="background-color: #D9D9D9;pt; "><font face="Courier New, monospace" size="2"><span style="background-color:#FFFFFF">    </span><font color="#548DD4"><span style="background-color:#FFFFFF">for</span></font><span style="background-color:#FFFFFF">(</span><span style="background-color:#FFFFFF">int
</span><span style="background-color:#FFFFFF">i</span><span style="background-color:#FFFFFF"> = 1</span><span style="background-color:#FFFFFF">;</span><span style="background-color:#FFFFFF"> </span><span style="background-color:#FFFFFF">i</span><span style="background-color:#FFFFFF">
< n</span><span style="background-color:#FFFFFF">;</span><span style="background-color:#FFFFFF"> i++</span><span style="background-color:#FFFFFF">)</span></font></div>
<div style="background-color: #D9D9D9;pt; "><font face="Courier New, monospace" size="2"><span style="background-color:#FFFFFF">    {</span></font></div>
<div style="background-color: #D9D9D9;pt; "><font face="Courier New, monospace" size="2"><span style="background-color:#FFFFFF">        </span><font color="#548DD4"><span style="background-color:#FFFFFF">if</span></font><span style="background-color:#FFFFFF">(</span><span style="background-color:#FFFFFF">get_next_</span><span style="background-color:#FFFFFF">query</span><span style="background-color:#FFFFFF">(</span><span style="background-color:#FFFFFF">stream,
</span><span style="background-color:#FFFFFF">&q[i]</span><span style="background-color:#FFFFFF">)</span><span style="background-color:#FFFFFF"> == eof)</span></font></div>
<div style="background-color: #D9D9D9;pt; "><font face="Courier New, monospace" size="2"><span style="background-color:#FFFFFF">            </span><font color="#548DD4"><span style="background-color:#FFFFFF">break</span></font><span style="background-color:#FFFFFF">;</span></font></div>
<div style="background-color: #D9D9D9;pt; "> </div>
<div style="background-color: #D9D9D9;pt; "><font face="Courier New, monospace" size="2"><span style="background-color:#FFFFFF">        </span><span style="background-color:#FFFFFF">active_workers++;</span></font></div>
<div style="background-color: #D9D9D9;pt; "><font face="Courier New, monospace" size="2"><span style="background-color:#FFFFFF">        </span><font color="#984806"><span style="background-color:#FFFFFF">MPI_</span></font><font color="#984806"><span style="background-color:#FFFFFF">S</span></font><font color="#984806"><span style="background-color:#FFFFFF">end</span></font><span style="background-color:#FFFFFF">(</span><span style="background-color:#FFFFFF">dest</span><span style="background-color:#FFFFFF">=</span><span style="background-color:#FFFFFF">i</span><span style="background-color:#FFFFFF">,
</span><span style="background-color:#FFFFFF">&</span><span style="background-color:#FFFFFF">q[i]</span><span style="background-color:#FFFFFF">, MPI_COMM_WORLD</span><span style="background-color:#FFFFFF">)</span><span style="background-color:#FFFFFF">;</span></font></div>
<div style="background-color: #D9D9D9;pt; "><font face="Courier New, monospace" size="2"><span style="background-color:#FFFFFF">        </span><span style="background-color:#FFFFFF">rc = </span><font color="#984806"><span style="background-color:#FFFFFF">MPI_Irecv</span></font><span style="background-color:#FFFFFF">(src</span><span style="background-color:#FFFFFF">=</span><span style="background-color:#FFFFFF">i</span><span style="background-color:#FFFFFF">,
</span><span style="background-color:#FFFFFF">buffer=</span><span style="background-color:#FFFFFF">&a[x]</span><span style="background-color:#FFFFFF">, request=&r[x], </span><span style="background-color:#FFFFFF">MPI_COMM_WORLD</span><span style="background-color:#FFFFFF">)</span></font></div>
<div style="background-color: #D9D9D9;pt; "><font face="Courier New, monospace" size="2"><span style="background-color:#FFFF00">>>></span><span style="background-color:#FFFF00">     </span><font color="#548DD4"><span style="background-color:#FFFF00">if</span></font><span style="background-color:#FFFF00">(rc
!= MPI_SUCCESS)</span></font></div>
<div style="background-color: #D9D9D9;pt; "><font face="Courier New, monospace" size="2"><span style="background-color:#FFFF00">>>></span><span style="background-color:#FFFF00">     {</span></font></div>
<div style="background-color: #D9D9D9;pt; "><font face="Courier New, monospace" size="2"><span style="background-color:#FFFF00">>>></span><span style="background-color:#FFFF00">         </span><span style="background-color:#FFFF00">start_repair(i, repairing,
q, a, r, stream</span><span style="background-color:#FFFF00">); </span></font></div>
<div style="background-color: #D9D9D9;pt; "><font face="Courier New, monospace" size="2"><span style="background-color:#FFFF00">>>></span><span style="background-color:#FFFF00">     }</span></font></div>
<div style="background-color: #D9D9D9;pt; "><font face="Courier New, monospace" size="2"><span style="background-color:#FFFFFF">    }</span></font></div>
<div style="background-color: #D9D9D9;pt; "> </div>
<div style="background-color: #D9D9D9;pt; "><font face="Courier New, monospace" size="2"><span style="background-color:#FFFFFF">    //</span></font></div>
<div style="background-color: #D9D9D9;pt; "><font face="Courier New, monospace" size="2"><span style="background-color:#FFFFFF">    // Phase </span><span style="background-color:#FFFFFF">2</span><span style="background-color:#FFFFFF">: </span><span style="background-color:#FFFFFF">finalize
any </span><span style="background-color:#FFFFFF">unnecessary</span><span style="background-color:#FFFFFF"> ranks</span></font></div>
<div style="background-color: #D9D9D9;pt; "><font face="Courier New, monospace" size="2"><span style="background-color:#FFFFFF">    //</span></font></div>
<div style="background-color: #D9D9D9;pt; "><font face="Courier New, monospace" size="2"><span style="background-color:#FFFFFF">    </span><font color="#548DD4"><span style="background-color:#FFFFFF">for</span></font><span style="background-color:#FFFFFF">(</span><span style="background-color:#FFFFFF">int
</span><span style="background-color:#FFFFFF">i</span><span style="background-color:#FFFFFF"> = </span><span style="background-color:#FFFFFF">active_workers + 1</span><span style="background-color:#FFFFFF">;</span><span style="background-color:#FFFFFF"> </span><span style="background-color:#FFFFFF">i</span><span style="background-color:#FFFFFF">
< n</span><span style="background-color:#FFFFFF">;</span><span style="background-color:#FFFFFF"> i++</span><span style="background-color:#FFFFFF">)</span></font></div>
<div style="background-color: #D9D9D9;pt; "><font face="Courier New, monospace" size="2"><span style="background-color:#FFFFFF">    {</span></font></div>
<div style="background-color: #D9D9D9;pt; "><font face="Courier New, monospace" size="2"><span style="background-color:#FFFFFF">        </span><font color="#984806"><span style="background-color:#FFFFFF">MPI_</span></font><font color="#984806"><span style="background-color:#FFFFFF">S</span></font><font color="#984806"><span style="background-color:#FFFFFF">end</span></font><span style="background-color:#FFFFFF">(</span><span style="background-color:#FFFFFF">dest</span><span style="background-color:#FFFFFF">=</span><span style="background-color:#FFFFFF">i</span><span style="background-color:#FFFFFF">,
</span><span style="background-color:#FFFFFF">&done_msg</span><span style="background-color:#FFFFFF">, MPI_COMM_WORLD</span><span style="background-color:#FFFFFF">)</span><span style="background-color:#FFFFFF">;</span></font></div>
<div style="background-color: #D9D9D9;pt; "><font face="Courier New, monospace" size="2"><span style="background-color:#FFFFFF">    }</span></font></div>
<div style="background-color: #D9D9D9;pt; "> </div>
<div style="background-color: #D9D9D9;pt; "> </div>
<div style="background-color: #D9D9D9;pt; "><font face="Courier New, monospace" size="2"><span style="background-color:#FFFFFF">    //</span></font></div>
<div style="background-color: #D9D9D9;pt; "><font face="Courier New, monospace" size="2"><span style="background-color:#FFFFFF">    // </span><span style="background-color:#FFFFFF">The progress engine. Get answers; send new requests and handle</span></font></div>
<div style="background-color: #D9D9D9;pt; "><font face="Courier New, monospace" size="2"><span style="background-color:#FFFFFF">    // process repairs</span></font></div>
<div style="background-color: #D9D9D9;pt; "><font face="Courier New, monospace" size="2"><span style="background-color:#FFFFFF">    //</span></font></div>
<div style="background-color: #D9D9D9;pt; "><font face="Courier New, monospace" size="2"><span style="background-color:#FFFFFF">    </span><font color="#548DD4"><span style="background-color:#FFFFFF">while</span></font><span style="background-color:#FFFFFF">(</span><span style="background-color:#FFFFFF">active_workers
!= 0</span><span style="background-color:#FFFFFF">)</span></font></div>
<div style="background-color: #D9D9D9;pt; "><font face="Courier New, monospace" size="2"><span style="background-color:#FFFFFF">    {</span></font></div>
<div style="background-color: #D9D9D9;pt; "><font face="Courier New, monospace" size="2"><span style="background-color:#FFFFFF">        </span><span style="background-color:#FFFFFF">rc = </span><font color="#984806"><span style="background-color:#FFFFFF">MPI_Waitany</span></font><span style="background-color:#FFFFFF">(</span><span style="background-color:#FFFFFF">n,
</span><span style="background-color:#FFFFFF">r</span><span style="background-color:#FFFFFF">, &</span><span style="background-color:#FFFFFF">i</span><span style="background-color:#FFFFFF">, </span><span style="background-color:#FFFFFF">MPI_STATUS_IGNORE);</span></font></div>
<div style="background-color: #D9D9D9;pt; "> </div>
<div style="background-color: #D9D9D9;pt; "><font face="Courier New, monospace" size="2"><span style="background-color:#FFFF00">>>></span><span style="background-color:#FFFF00">     </span><font color="#548DD4"><span style="background-color:#FFFF00">if</span></font><span style="background-color:#FFFF00">(</span><span style="background-color:#FFFF00">!</span><span style="background-color:#FFFF00">repairing[</span><span style="background-color:#FFFF00">i</span><span style="background-color:#FFFF00">])</span></font></div>
<div style="background-color: #D9D9D9;pt; "><font face="Courier New, monospace" size="2"><span style="background-color:#FFFF00">>>></span><span style="background-color:#FFFF00">     {</span></font></div>
<div style="background-color: #D9D9D9;pt; "><font face="Courier New, monospace" size="2"><span style="background-color:#FFFF00">>>></span><span style="background-color:#FFFF00"> </span><span style="background-color:#FFFF00">        </span><font color="#548DD4"><span style="background-color:#FFFF00">if</span></font><span style="background-color:#FFFF00">(rc
!= MPI_SUCCESS)</span></font></div>
<div style="background-color: #D9D9D9;pt; "><font face="Courier New, monospace" size="2"><span style="background-color:#FFFF00">>>></span><span style="background-color:#FFFF00"> </span><span style="background-color:#FFFF00">    </span><span style="background-color:#FFFF00">   
{</span></font></div>
<div style="background-color: #D9D9D9;pt; "><font face="Courier New, monospace" size="2"><span style="background-color:#FFFF00">>>></span><span style="background-color:#FFFF00">     </span><span style="background-color:#FFFF00">    </span><span style="background-color:#FFFF00">   
</span><span style="background-color:#FFFF00">start_repair(i, repairing, q, a, r, stream)</span></font></div>
<div style="background-color: #D9D9D9;pt; "><font face="Courier New, monospace" size="2"><span style="background-color:#FFFF00">>>></span><span style="background-color:#FFFF00">             continue;</span></font></div>
<div style="background-color: #D9D9D9;pt; "><font face="Courier New, monospace" size="2"><span style="background-color:#FFFF00">>>></span><span style="background-color:#FFFF00"> </span><span style="background-color:#FFFF00">        }</span></font></div>
<div style="background-color: #D9D9D9;pt; "> </div>
<div style="background-color: #D9D9D9;pt; "><font face="Courier New, monospace" size="2"><span style="background-color:#FFFFFF">        </span><span style="background-color:#FFFFFF">    </span><span style="background-color:#FFFFFF">p</span><span style="background-color:#FFFFFF">rocess_answer(&a[</span><span style="background-color:#FFFFFF">i</span><span style="background-color:#FFFFFF">]);</span></font></div>
<div style="background-color: #D9D9D9;pt; "><font face="Courier New, monospace" size="2"><span style="background-color:#FFFF00">>>></span><span style="background-color:#FFFF00">     }</span></font></div>
<div style="background-color: #D9D9D9;pt; "><font face="Courier New, monospace" size="2"><span style="background-color:#FFFF00">>>></span><span style="background-color:#FFFF00">     </span><font color="#548DD4"><span style="background-color:#FFFF00">else</span></font><span style="background-color:#FFFF00">
</span><font color="#548DD4"><span style="background-color:#FFFF00">if</span></font><span style="background-color:#FFFF00">(rc != MPI_SUCCESS)</span></font></div>
<div style="background-color: #D9D9D9;pt; "><font face="Courier New, monospace" size="2"><span style="background-color:#FFFF00">>>></span><span style="background-color:#FFFF00"> </span><span style="background-color:#FFFF00">    </span><span style="background-color:#FFFF00">{</span></font></div>
<div style="background-color: #D9D9D9;pt; "><font face="Courier New, monospace" size="2"><span style="background-color:#FFFF00">>>></span><span style="background-color:#FFFF00"> </span><span style="background-color:#FFFF00">        active_workers--;</span></font></div>
<div style="background-color: #D9D9D9;pt; "><font face="Courier New, monospace" size="2"><span style="background-color:#FFFF00">>>></span><span style="background-color:#FFFF00">     {</span></font></div>
<div style="background-color: #D9D9D9;pt; "> </div>
<div style="background-color: #D9D9D9;pt; "><font face="Courier New, monospace" size="2"><span style="background-color:#FFFFFF">        </span><font color="#548DD4"><span style="background-color:#FFFFFF">if</span></font><span style="background-color:#FFFFFF">(</span><span style="background-color:#FFFFFF">get_next_input(</span><span style="background-color:#FFFFFF">stream,
</span><span style="background-color:#FFFFFF">&q[</span><span style="background-color:#FFFFFF">i</span><span style="background-color:#FFFFFF">])</span><span style="background-color:#FFFFFF"> == eof)</span></font></div>
<div style="background-color: #D9D9D9;pt; "><font face="Courier New, monospace" size="2"><span style="background-color:#FFFFFF">        {</span></font></div>
<div style="background-color: #D9D9D9;pt; "><font face="Courier New, monospace" size="2"><span style="background-color:#FFFFFF">            active_workers--;</span></font></div>
<div style="background-color: #D9D9D9;pt; "><font face="Courier New, monospace" size="2"><span style="background-color:#FFFFFF">    </span><span style="background-color:#FFFFFF">        </span><font color="#984806"><span style="background-color:#FFFFFF">MPI_Send</span></font><span style="background-color:#FFFFFF">(</span><span style="background-color:#FFFFFF">dest=</span><span style="background-color:#FFFFFF">i</span><span style="background-color:#FFFFFF">,
&</span><span style="background-color:#FFFFFF">done_msg</span><span style="background-color:#FFFFFF">)</span></font></div>
<div style="background-color: #D9D9D9;pt; "><font face="Courier New, monospace" size="2"><span style="background-color:#FFFFFF">        {</span></font></div>
<div style="background-color: #D9D9D9;pt; "><font face="Courier New, monospace" size="2"><span style="background-color:#FFFFFF">        </span><font color="#548DD4"><span style="background-color:#FFFFFF">else</span></font></font></div>
<div style="background-color: #D9D9D9;pt; "><font face="Courier New, monospace" size="2"><span style="background-color:#FFFFFF">        {</span></font></div>
<div style="background-color: #D9D9D9;pt; "><font face="Courier New, monospace" size="2"><span style="background-color:#FFFFFF">    </span><span style="background-color:#FFFFFF">        </span><font color="#984806"><span style="background-color:#FFFFFF">MPI_Send</span></font><span style="background-color:#FFFFFF">(</span><span style="background-color:#FFFFFF">dest=</span><span style="background-color:#FFFFFF">i</span><span style="background-color:#FFFFFF">,
&q[</span><span style="background-color:#FFFFFF">i</span><span style="background-color:#FFFFFF">])</span></font></div>
<div style="background-color: #D9D9D9;pt; "><font face="Courier New, monospace" size="2"><span style="background-color:#FFFFFF">    </span><span style="background-color:#FFFFFF">        </span><span style="background-color:#FFFFFF">rc = </span><font color="#984806"><span style="background-color:#FFFFFF">MPI_Irecv</span></font><span style="background-color:#FFFFFF">(src</span><span style="background-color:#FFFFFF">=</span><span style="background-color:#FFFFFF">i</span><span style="background-color:#FFFFFF">,
</span><span style="background-color:#FFFFFF">buffer=</span><span style="background-color:#FFFFFF">&a[</span><span style="background-color:#FFFFFF">i</span><span style="background-color:#FFFFFF">]</span><span style="background-color:#FFFFFF">, request=&r[</span><span style="background-color:#FFFFFF">i</span><span style="background-color:#FFFFFF">],
</span><span style="background-color:#FFFFFF">MPI_COMM_WORLD</span><span style="background-color:#FFFFFF">)</span></font></div>
<div style="background-color: #D9D9D9;pt; "><font face="Courier New, monospace" size="2"><span style="background-color:#FFFF00">>>></span><span style="background-color:#FFFF00"> </span><span style="background-color:#FFFF00">        </span><font color="#548DD4"><span style="background-color:#FFFF00">if</span></font><span style="background-color:#FFFF00">(rc
!= MPI_SUCCESS)</span></font></div>
<div style="background-color: #D9D9D9;pt; "><font face="Courier New, monospace" size="2"><span style="background-color:#FFFF00">>>></span><span style="background-color:#FFFF00"> </span><span style="background-color:#FFFF00">    </span><span style="background-color:#FFFF00">   
{</span></font></div>
<div style="background-color: #D9D9D9;pt; "><font face="Courier New, monospace" size="2"><span style="background-color:#FFFF00">>>></span><span style="background-color:#FFFF00">     </span><span style="background-color:#FFFF00">    </span><span style="background-color:#FFFF00"> 
</span><span style="background-color:#FFFF00">  start_repair(i, repairing, q, a, r, stream)</span><span style="background-color:#FFFF00">;</span></font></div>
<div style="background-color: #D9D9D9;pt; "><font face="Courier New, monospace" size="2"><span style="background-color:#FFFF00">>>></span><span style="background-color:#FFFF00"> </span><span style="background-color:#FFFF00">        }</span></font></div>
<div style="background-color: #D9D9D9;pt; "><font face="Courier New, monospace" size="2"><span style="background-color:#FFFFFF">        }</span></font></div>
<div style="background-color: #D9D9D9;pt; "><font face="Courier New, monospace" size="2"><span style="background-color:#FFFFFF">    }</span></font></div>
<div style="background-color: #D9D9D9;pt; "> </div>
<div style="background-color: #D9D9D9;pt; "><font face="Courier New, monospace" size="2"><span style="background-color:#FFFFFF">    </span><font color="#984806"><span style="background-color:#FFFFFF">MPI_Finalize</span></font><span style="background-color:#FFFFFF">()</span></font></div>
<div style="background-color: #D9D9D9;pt; "><font face="Courier New, monospace" size="2"><span style="background-color:#FFFFFF">}</span></font></div>
<div style="background-color: #D9D9D9;pt; "> </div>
<div style="background-color: #D9D9D9;pt; "> </div>
<div style="background-color: #D9D9D9;pt; "><font face="Courier New, monospace" size="2"><span style="background-color:#FFFF00">>>></span><span style="background-color:#FFFF00"> </span><font color="#548DD4"><span style="background-color:#FFFF00">void</span></font><span style="background-color:#FFFF00">
</span><span style="background-color:#FFFF00">start_</span><span style="background-color:#FFFF00">repair(int i, int repairing[], </span><span style="background-color:#FFFF00">Query q[], Answer q[], MPI_Request r[]</span><span style="background-color:#FFFF00">,
Stream stream</span><span style="background-color:#FFFF00">)</span></font></div>
<div style="background-color: #D9D9D9;pt; "><font face="Courier New, monospace" size="2"><span style="background-color:#FFFF00">>>></span><span style="background-color:#FFFF00"> </span><span style="background-color:#FFFF00">{</span></font></div>
<div style="background-color: #D9D9D9;pt; "><font face="Courier New, monospace" size="2"><span style="background-color:#FFFF00">>>></span><span style="background-color:#FFFF00"> </span><span style="background-color:#FFFF00">    repairing[i] = true;</span></font></div>
<div style="background-color: #D9D9D9;pt; "><font face="Courier New, monospace" size="2"><span style="background-color:#FFFF00">>>></span><span style="background-color:#FFFF00"> </span><span style="background-color:#FFFF00">    push_</span><span style="background-color:#FFFF00">query_</span><span style="background-color:#FFFF00">back(strea</span><span style="background-color:#FFFF00">m,
&q[i]);</span></font></div>
<div style="background-color: #D9D9D9;pt; "><font face="Courier New, monospace" size="2"><span style="background-color:#FFFF00">>>></span><span style="background-color:#FFFF00"> </span><span style="background-color:#FFFF00">    MPI_Comm_Irepair(MPI_COMM_WORLD,
</span><span style="background-color:#FFFF00">i, &r[i]</span><span style="background-color:#FFFF00">);</span></font></div>
<div style="background-color: #D9D9D9;pt; "><font face="Courier New, monospace" size="2"><span style="background-color:#FFFF00">>>></span><span style="background-color:#FFFF00"> </span><span style="background-color:#FFFF00">}</span></font></div>
<div style="background-color: #D9D9D9;pt; "> </div>
<div style="background-color: #D9D9D9;pt; "> </div>
<div> </div>
<div style="margin-top: 10pt; "><font face="Cambria, serif" color="#4F81BD"><b>Logic description (without FT)</b></font></div>
<div>The master code keeps track of the number of active workers through the active_workers variable. It is solely used for the purpose of shutdown. When the master is out of input, it shuts-down the workers by sending them <i>‘</i><i>done</i><i>’</i> message.
It decrease the number of active workers and finalizes when this number reaches zero.</div>
<div> </div>
<div>The master’s progress engine waits on a vector of requests (note that entry 0 is not used, as to simplify the code); one it gets an answer it processes it and sends the next query to that worker until it’s out of input.</div>
<div> </div>
<div style="margin-top: 10pt; "><font face="Cambria, serif" color="#4F81BD"><b>Logic description (wit</b><b>h</b><b> FT)</b></font></div>
<div>The master detects a faulty client either synchronously when it ties to initiate an async receive (no need to check the send, the assumption is that if send failed, so will the receive call), or async when the async receive completes with an error. Once
an error detected (and identified as a faulty client, more about this later), the master starts an async repair of that client. If the repair succeeds, new work is sent to that client. If it does not, the number of active workers is decreased and the master
has to live with less processing power.</div>
<div> </div>
<div>The code above assumes that if the returned code is an error, it should repair the worker; however as we discussed, there could very well be many different reasons for an error here, which not all are related to process failure; for that we might use something
in lines of</div>
<div> </div>
<div style="text-indent: 36pt; background-color: #D9D9D9;pt; "><font face="Courier New, monospace" size="2" color="#0070C0"><span style="background-color:#FFFFFF">i</span><span style="background-color:#FFFFFF">f</span><font color="#000000"><span style="background-color:#FFFFFF">(</span></font><font color="#984806"><span style="background-color:#FFFFFF">MPI_Error_event</span></font><font color="#000000"><span style="background-color:#FFFFFF">(rc)
== MPI_EVENT_PROCESS_DOWN)</span></font><font color="#000000"><span style="background-color:#FFFFFF">...</span></font></font></div>
<div> </div>
<div>it would be the responsibility of the MPI implementation to encode or store the event related to the returned error code.</div>
<div><i>(Note: in MPICH2 there is </i><i>a mechanism that enables</i><i> encoding extended error information </i><i>in the</i><i> error code</i><i>, which then can be </i><i>retrieved</i><i> using </i><i>MPI_Error_string)</i></div>
<div> </div>
<div style="margin-top: 10pt; "><font face="Cambria, serif" size="3" color="#4F81BD"><b>Conclusions</b></font></div>
<div>I believe that the solution above describes what we have discussed in the last meeting. The required API’s to support this FT are really minimal but already cover a good set of users.</div>
<div> </div>
<div>Please, send your comments.</div>
<div>Thoughts?</div>
<div> </div>
<div>Thanks,</div>
<div>.Erez</div>
<div> </div>
<div>P.S. I will post this on the FT wiki pages (with the feedbac).</div>
<div>P.P.S. there is one more scenario that we discussed, and extension of the master-workers model. I will try to get it write us as-soon-as-posible.</div>
<div> </div>
<div> </div>
<div> </div>
</font>
</body>
</html>