Sure - I'll return to my office in about 10 days and will pass it along then. It was a LANL study that is frequently cited.<br><br><div class="gmail_quote">On Thu, May 31, 2012 at 6:32 AM, Josh Hursey <span dir="ltr"><<a href="mailto:jjhursey@open-mpi.org" target="_blank">jjhursey@open-mpi.org</a>></span> wrote:<br>
<blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex">Ralph,<br>
<br>
You site a published study. Can you provide a link to the resource?<br>
<span class="HOEnZb"><font color="#888888"><br>
-- Josh<br>
</font></span><div class="HOEnZb"><div class="h5"><br>
On Wed, May 30, 2012 at 10:18 PM, Ralph Castain <<a href="mailto:rhc@open-mpi.org">rhc@open-mpi.org</a>> wrote:<br>
> Obviously, I can't speak for the folks who attended and voted "no", either<br>
> directly or by abstaining. However, I have talked to at least a few people,<br>
> and can offer a point or two about the concerns.<br>
><br>
> First, the last study I saw published on the subject of FT for MPI showed a<br>
> very low level of interest in FT within the MPI community. It based this on<br>
> a usage analysis that showed something over 90% of clusters being too small<br>
> to see large failure rates. On the clusters that were large enough<br>
> (primarily at the national labs, who pretty clearly voted no), over 80% of<br>
> the MPI jobs lasted less than 1 hour.<br>
><br>
> So the size of the community that potentially benefits from FT is very<br>
> small. In contrast, despite assurances it would be turned off unless<br>
> specifically requested, it was clear from the proposals that FT would impact<br>
> a significant fraction of the code, thus raising the potential for a<br>
> substantial round of debugging and instability.<br>
><br>
> For that majority who would see little-to-no benefit, this isn't an<br>
> attractive trade-off.<br>
><br>
> Second, those who possibly could benefit tend to take a more holistic view<br>
> of FT. If you step back and look at the cluster as a system, then there are<br>
> multiple ways of addressing the problems of failure during long runs. Yes,<br>
> one way is to harden MPI to such events, but that is probably the hardest<br>
> solution.<br>
><br>
> One easier way, and the one being largely touted at the moment, is to make<br>
> checkpointing of an application be a relatively low-cost event so that it<br>
> can be frequently done. This is being commercialized as we speak by the<br>
> addition of SSDs to the usual parallel file system, thus making a checkpoint<br>
> run at very fast speeds. In fact, "burst" buffers are allowing the<br>
> checkpoint to dump very quickly, and then slowly drain to disk, rendering<br>
> the checkpoint operation very low cost. Given that the commercial interests<br>
> coincide with the HPC interests, this solution is likely to be available<br>
> from cluster suppliers very soon at an attractive price.<br>
><br>
> Combined with measures to make restart very fast as well, this looks like an<br>
> alternative that has no performance impact on the application at the MPI<br>
> level, doesn't potentially destabilize the software, and may meet the<br>
> majority of needs.<br>
><br>
> I'm not touting this approach over any other, mind you - just trying to<br>
> point out that the research interests of the FT/MPI group needs to be<br>
> considered in a separate light from the production interests of the<br>
> community. What you may be experiencing (from my limited survey) is a<br>
> reflection of that divergence.<br>
><br>
> Ralph<br>
><br>
><br>
><br>
> On Wed, May 30, 2012 at 6:55 PM, George Bosilca <<a href="mailto:bosilca@eecs.utk.edu">bosilca@eecs.utk.edu</a>><br>
> wrote:<br>
>><br>
>> On May 31, 2012, at 08:44 , Martin Schulz wrote:<br>
>><br>
>> Several people who abstained had very similar concerns, but chose the<br>
>> abstain vote since they know it meant no,<br>
>><br>
>><br>
>> Your interpretation is barely making a "simple majority" in the forum, as<br>
>> highlighted by parallel discussions in the other email threads. But let's<br>
>> leave this discussion in its own thread.<br>
>><br>
>> But you're right, both "no" and "abstain" votes should be addressed. Bill<br>
>> made his point very clear, and to be honest he was the only one that raised<br>
>> a __valid__ point about the FT proposal. Personally, I am looking forward to<br>
>> fruitful discussions during our weekly phone-calls where the complaints<br>
>> raised during the voting will be brought forward in the way that the working<br>
>> group will have a real opportunity to address them as they deserve. In other<br>
>> terms we are all counting on you guys to enlighten us on the major issues<br>
>> with this proposal and the potential solutions you envision or promote.<br>
>><br>
>>   george.<br>
>><br>
>> On May 31, 2012, at 08:44 , Martin Schulz wrote:<br>
>><br>
>> Hi George,<br>
>><br>
>> One other no was Intel as far as I remember, but I don't remember the 5th.<br>
>> However, I would suggest not to focus on the no votes alone. Several people<br>
>> who abstained had very similar concerns, but chose the abstain vote since<br>
>> they know it meant no, but they agreed with the general necessity of FT for<br>
>> MPI. I remember, for example, Bill saying that for him abstain meant no, but<br>
>> that changes later on could change his mind. Based on this interpretation,<br>
>> the ticket definitely had more than 5 no votes.<br>
>><br>
>> Martin<br>
>><br>
>><br>
>> On May 31, 2012, at 8:34 AM, Darius Buntinas wrote:<br>
>><br>
>><br>
>> Argonne was not convinced that we (FTWG) had the right solution, and the<br>
>> large changes in the text mentioned previously did not instill confidence.<br>
>>  So it was decided that Argonne would vote against the ticket.<br>
>><br>
>> -d<br>
>><br>
>> On May 30, 2012, at 6:24 PM, George Bosilca wrote:<br>
>><br>
>> In total there were 5 no votes. I wonder who were the other two, they<br>
>> might be willing to enlighten us on their reasons to vote against.<br>
>><br>
>><br>
>> george.<br>
>><br>
>><br>
>> On May 31, 2012, at 05:48 , Anthony Skjellum wrote:<br>
>><br>
>><br>
>> Three no votes were LLNL, Argonne, and Sandia.  Since MPI is heavily<br>
>> driven by DOE, convincing these folks would be important.<br>
>><br>
>><br>
>> Tony Skjellum, <a href="mailto:tonyskj@yahoo.com">tonyskj@yahoo.com</a> or <a href="mailto:skjellum@gmail.com">skjellum@gmail.com</a><br>
>><br>
>> Cell <a href="tel:205-807-4968" value="+12058074968">205-807-4968</a><br>
>><br>
>><br>
>> On May 31, 2012, at 5:10 AM, Richard Graham <<a href="mailto:richardg@mellanox.com">richardg@mellanox.com</a>> wrote:<br>
>><br>
>><br>
>> The main objection raised is that the text has still been having large<br>
>> changes, and if not for the pressure of the 3.0 deadline, this would not<br>
>> have come up for a vote.  I talked one-on-one with many that either voted<br>
>> against or abstained, and this was the major (not only) point raised.<br>
>><br>
>><br>
>> Rich<br>
>><br>
>><br>
>> -----Original Message-----<br>
>><br>
>> From: <a href="mailto:mpi3-ft-bounces@lists.mpi-forum.org">mpi3-ft-bounces@lists.mpi-forum.org</a><br>
>> [mailto:<a href="mailto:mpi3-ft-bounces@lists.mpi-forum.org">mpi3-ft-bounces@lists.mpi-forum.org</a>] On Behalf Of Aurélien<br>
>> Bouteiller<br>
>><br>
>> Sent: Wednesday, May 30, 2012 10:05 PM<br>
>><br>
>> To: MPI 3.0 Fault Tolerance and Dynamic Process Control working Group<br>
>><br>
>> Subject: Re: [Mpi3-ft] Ticket 323 - status?<br>
>><br>
>><br>
>> It seems we had very little, if any, technical opposition on the content<br>
>> of the proposal itself, but mostly comments on the process. I think we need<br>
>> to understand more what are the oppositions. Do we have a list of who voted<br>
>> for and against and their rationale?<br>
>><br>
>><br>
>> Aurelien<br>
>><br>
>><br>
>><br>
>> Le 30 mai 2012 à 08:52, Josh Hursey a écrit :<br>
>><br>
>><br>
>> That is unfortunate. A close vote (7 yes to 9 no/abstain). :/<br>
>><br>
>><br>
>> Thanks,<br>
>><br>
>> Josh<br>
>><br>
>><br>
>> On Wed, May 30, 2012 at 8:38 AM, Thomas Herault<br>
>><br>
>> <<a href="mailto:herault.thomas@gmail.com">herault.thomas@gmail.com</a>> wrote:<br>
>><br>
>> Le 30 mai 2012 a 01:44, George Bosilca a écrit:<br>
>><br>
>><br>
>> The ticket has been voted down. Come back in 6 months, maybe 3.1. The<br>
>> votes were 7 yes, 4 abstains and 5 no.<br>
>><br>
>><br>
>> Thomas<br>
>><br>
>><br>
>> Le 30 mai 2012 à 07:02, Josh Hursey a écrit :<br>
>><br>
>><br>
>> How did the vote go for the fault tolerance ticket 323?<br>
>><br>
>><br>
>> -- Josh<br>
>><br>
>><br>
>> --<br>
>><br>
>> Joshua Hursey<br>
>><br>
>> Postdoctoral Research Associate<br>
>><br>
>> Oak Ridge National Laboratory<br>
>><br>
>> <a href="http://users.nccs.gov/%7Ejjhursey" target="_blank">http://users.nccs.gov/~jjhursey</a><br>
>><br>
>> _______________________________________________<br>
>><br>
>> mpi3-ft mailing list<br>
>><br>
>> <a href="mailto:mpi3-ft@lists.mpi-forum.org">mpi3-ft@lists.mpi-forum.org</a><br>
>><br>
>> <a href="http://lists.mpi-forum.org/mailman/listinfo.cgi/mpi3-ft" target="_blank">http://lists.mpi-forum.org/mailman/listinfo.cgi/mpi3-ft</a><br>
>><br>
>><br>
>><br>
>> _______________________________________________<br>
>><br>
>> mpi3-ft mailing list<br>
>><br>
>> <a href="mailto:mpi3-ft@lists.mpi-forum.org">mpi3-ft@lists.mpi-forum.org</a><br>
>><br>
>> <a href="http://lists.mpi-forum.org/mailman/listinfo.cgi/mpi3-ft" target="_blank">http://lists.mpi-forum.org/mailman/listinfo.cgi/mpi3-ft</a><br>
>><br>
>><br>
>><br>
>><br>
>> --<br>
>><br>
>> Joshua Hursey<br>
>><br>
>> Postdoctoral Research Associate<br>
>><br>
>> Oak Ridge National Laboratory<br>
>><br>
>> <a href="http://users.nccs.gov/%7Ejjhursey" target="_blank">http://users.nccs.gov/~jjhursey</a><br>
>><br>
>><br>
>> _______________________________________________<br>
>><br>
>> mpi3-ft mailing list<br>
>><br>
>> <a href="mailto:mpi3-ft@lists.mpi-forum.org">mpi3-ft@lists.mpi-forum.org</a><br>
>><br>
>> <a href="http://lists.mpi-forum.org/mailman/listinfo.cgi/mpi3-ft" target="_blank">http://lists.mpi-forum.org/mailman/listinfo.cgi/mpi3-ft</a><br>
>><br>
>><br>
>> --<br>
>><br>
>> * Dr. Aurélien Bouteiller<br>
>><br>
>> * Researcher at Innovative Computing Laboratory<br>
>><br>
>> * University of Tennessee<br>
>><br>
>> * 1122 Volunteer Boulevard, suite 350<br>
>><br>
>> * Knoxville, TN 37996<br>
>><br>
>> * <a href="tel:865%20974%209375" value="+18659749375">865 974 9375</a><br>
>><br>
>><br>
>><br>
>><br>
>><br>
>><br>
>><br>
>><br>
>> _______________________________________________<br>
>><br>
>> mpi3-ft mailing list<br>
>><br>
>> <a href="mailto:mpi3-ft@lists.mpi-forum.org">mpi3-ft@lists.mpi-forum.org</a><br>
>><br>
>> <a href="http://lists.mpi-forum.org/mailman/listinfo.cgi/mpi3-ft" target="_blank">http://lists.mpi-forum.org/mailman/listinfo.cgi/mpi3-ft</a><br>
>><br>
>><br>
>> _______________________________________________<br>
>><br>
>> mpi3-ft mailing list<br>
>><br>
>> <a href="mailto:mpi3-ft@lists.mpi-forum.org">mpi3-ft@lists.mpi-forum.org</a><br>
>><br>
>> <a href="http://lists.mpi-forum.org/mailman/listinfo.cgi/mpi3-ft" target="_blank">http://lists.mpi-forum.org/mailman/listinfo.cgi/mpi3-ft</a><br>
>><br>
>><br>
>><br>
>> _______________________________________________<br>
>><br>
>> mpi3-ft mailing list<br>
>><br>
>> <a href="mailto:mpi3-ft@lists.mpi-forum.org">mpi3-ft@lists.mpi-forum.org</a><br>
>><br>
>> <a href="http://lists.mpi-forum.org/mailman/listinfo.cgi/mpi3-ft" target="_blank">http://lists.mpi-forum.org/mailman/listinfo.cgi/mpi3-ft</a><br>
>><br>
>><br>
>><br>
>> _______________________________________________<br>
>> mpi3-ft mailing list<br>
>> <a href="mailto:mpi3-ft@lists.mpi-forum.org">mpi3-ft@lists.mpi-forum.org</a><br>
>> <a href="http://lists.mpi-forum.org/mailman/listinfo.cgi/mpi3-ft" target="_blank">http://lists.mpi-forum.org/mailman/listinfo.cgi/mpi3-ft</a><br>
>><br>
>><br>
>> ________________________________________________________________________<br>
>> Martin Schulz, <a href="mailto:schulzm@llnl.gov">schulzm@llnl.gov</a>, <a href="http://people.llnl.gov/schulzm" target="_blank">http://people.llnl.gov/schulzm</a><br>
>> CASC @ Lawrence Livermore National Laboratory, Livermore, USA<br>
>><br>
>><br>
>><br>
>> _______________________________________________<br>
>> mpi3-ft mailing list<br>
>> <a href="mailto:mpi3-ft@lists.mpi-forum.org">mpi3-ft@lists.mpi-forum.org</a><br>
>> <a href="http://lists.mpi-forum.org/mailman/listinfo.cgi/mpi3-ft" target="_blank">http://lists.mpi-forum.org/mailman/listinfo.cgi/mpi3-ft</a><br>
>><br>
>><br>
>><br>
>> _______________________________________________<br>
>> mpi3-ft mailing list<br>
>> <a href="mailto:mpi3-ft@lists.mpi-forum.org">mpi3-ft@lists.mpi-forum.org</a><br>
>> <a href="http://lists.mpi-forum.org/mailman/listinfo.cgi/mpi3-ft" target="_blank">http://lists.mpi-forum.org/mailman/listinfo.cgi/mpi3-ft</a><br>
><br>
><br>
><br>
> _______________________________________________<br>
> mpi3-ft mailing list<br>
> <a href="mailto:mpi3-ft@lists.mpi-forum.org">mpi3-ft@lists.mpi-forum.org</a><br>
> <a href="http://lists.mpi-forum.org/mailman/listinfo.cgi/mpi3-ft" target="_blank">http://lists.mpi-forum.org/mailman/listinfo.cgi/mpi3-ft</a><br>
<br>
<br>
<br>
--<br>
Joshua Hursey<br>
Postdoctoral Research Associate<br>
Oak Ridge National Laboratory<br>
<a href="http://users.nccs.gov/%7Ejjhursey" target="_blank">http://users.nccs.gov/~jjhursey</a><br>
<br>
_______________________________________________<br>
mpi3-ft mailing list<br>
<a href="mailto:mpi3-ft@lists.mpi-forum.org">mpi3-ft@lists.mpi-forum.org</a><br>
<a href="http://lists.mpi-forum.org/mailman/listinfo.cgi/mpi3-ft" target="_blank">http://lists.mpi-forum.org/mailman/listinfo.cgi/mpi3-ft</a><br>
</div></div></blockquote></div><br>