<html><head><meta http-equiv="Content-Type" content="text/html charset=utf-8"></head><body style="word-wrap: break-word; -webkit-nbsp-mode: space; -webkit-line-break: after-white-space;" class="">I have updated both the RFC (including adding example code on how to make multi-cluster connect work) and the prototype code per the below comments.<div class=""><br class=""></div><div class="">Comments welcome!</div><div class="">Ralph</div><div class=""><br class=""></div><div class=""><br class=""><div><blockquote type="cite" class=""><div class="">On Oct 19, 2017, at 10:43 AM, <a href="mailto:rhc@open-mpi.org" class="">rhc@open-mpi.org</a> wrote:</div><br class="Apple-interchange-newline"><div class=""><meta http-equiv="Content-Type" content="text/html charset=utf-8" class=""><div style="word-wrap: break-word; -webkit-nbsp-mode: space; -webkit-line-break: after-white-space;" class="">In thinking about this more, I realized that these new attributes won’t solve the problem raised by Martin. Instead, they were focused on giving the application the ability to define the nspace name - doesn’t help with the issue of specifying procs from different clusters in the PMIx_Connect call.<div class=""><br class=""></div><div class="">After circling around again with the RM folks, a couple of things were resolved:</div><div class=""><br class=""></div><div class="">1. They really cannot support user-defined nspaces as the nspace directly correlates to their assignment of a “jobid” to the operation. Trying to build correlation tables to map a user definition to the RM’s identifier would be overly burdensome.</div><div class=""><br class=""></div><div class="">2. They are willing to standardize on prepending the cluster ID string to the nspace when referencing remote clusters. We tentatively agreed on using a colon ‘:’ as the delimiter. So when referencing a proc in nspace “bar” on cluster “foo”, you would provide an nspace of “foo:bar”. If no cluster ID is provided, then all parties will assume the nspace refers to the local cluster.</div><div class=""><br class=""></div><div class="">3. For the issue of having multiple, parallel PMIx_Connect operations spanning identical procs, we agreed to define an attribute PMIX_CONNECT_ID (string) whereby the application can provide its own unique “tag” for that operation. When provided, the RM and PMIx libraries will use this tag to separate out the operations. Note that all procs participating in the connect operation must provide the same tag.</div><div class=""><br class=""></div><div class="">I will update the RFC accordingly, and provide a couple of new macros in pmix_common.h to make insertion and parsing of the cluster ID to/from the nspace easier.</div><div class=""><br class=""></div><div class="">HTH</div><div class="">Ralph</div><div class=""><br class=""></div><div class=""><div class=""><blockquote type="cite" class=""><div class="">On Oct 18, 2017, at 8:51 PM, <a href="mailto:rhc@open-mpi.org" class="">rhc@open-mpi.org</a> wrote:</div><br class="Apple-interchange-newline"><div class=""><meta http-equiv="Content-Type" content="text/html charset=utf-8" class=""><div style="word-wrap: break-word; -webkit-nbsp-mode: space; -webkit-line-break: after-white-space;" class="">Hello all<div class=""><br class=""></div><div class="">I followed up on my AR from the meeting to check with the RMs on how they handle unique identifiers for procs on different clusters. As we had surmised, they provide a string name for each cluster, and they agreed that adding that to the PMIx nspace would be a reasonable path forward.</div><div class=""><br class=""></div><div class="">I have accordingly updated the PMIx RFC (<a href="https://github.com/pmix/RFCs/pull/3" class="">https://github.com/pmix/RFCs/pull/3</a>) to include three new attributes:</div><div class=""><br class=""></div><div class=""><div class="">* PMIX_CONNECT_ID_MODIFIER_PREPEND: modify the nspace returned by the host by prepending the given modifier to the nspace string. This allows the application to "tag" the connected group in a recognizable fashion.</div><div class=""><br class=""></div><div class="">* PMIX_CONNECT_ID_MODIFIER_APPEND: modify the nspace returned by the host by appending the given modifier to the nspace string. This allows the application to "tag" the connected group in a recognizable fashion.</div><div class=""><br class=""></div><div class="">* PMIX_CONNECT_ID_REQUEST: request that the given identifier be used as the assigned nspace for the connected group. The "required" flag in the directive can be used to indicate that this identifier is required (i.e., the host RM must use it for the group, returning an error if it is already in use) as opposed to requested (i.e., the host RM can substitute its own unique identifier if the specified one is already in use).</div><div class=""><br class=""></div><div class="">I also added the PMIX_CLUSTER_ID attribute to the list of information to be provided by the RM at process start - you can see the list here:</div><div class=""><a href="https://github.com/pmix/pmix/wiki/2.8-Pmix-Server-Data-Requirements" class="">https://github.com/pmix/pmix/wiki/2.8-Pmix-Server-Data-Requirements</a></div><div class=""><br class=""></div><div class="">Ralph</div><div class=""><br class=""></div><div class=""><blockquote type="cite" class=""><div class="">On Oct 16, 2017, at 11:48 AM, Pritchard Jr., Howard <<a href="mailto:howardp@lanl.gov" class="">howardp@lanl.gov</a>> wrote:</div><br class="Apple-interchange-newline"><div class="">

<meta http-equiv="Content-Type" content="text/html; charset=utf-8" class="">

<div style="word-wrap: break-word; -webkit-nbsp-mode: space; -webkit-line-break: after-white-space; font-size: 14px; font-family: Calibri, sans-serif;" class="">
<div class="">Hi Folks,</div>
<div class=""><br class="">
</div>
<div class="">Notes from today’s call are on the wiki:</div>
<div class=""><br class="">
</div>
<div class=""><a href="https://github.com/mpiwg-sessions/sessions-issues/wiki/2017-10-16-webex" class="">https://github.com/mpiwg-sessions/sessions-issues/wiki/2017-10-16-webex</a></div>
<div class=""><br class="">
</div>
<div class="">Howard</div>
<div class=""><br class="">
</div>
<div class="">
<div class="">
<div class="">-- </div>
<div class="">Howard Pritchard</div>
</div>
<div class="">B Schedule</div>
<div class="">HPC-ENV</div>
<div class="">Los Alamos National Laboratory</div>
<div class=""><br class="">
</div>
</div>
</div>

_______________________________________________<br class="">mpiwg-sessions mailing list<br class=""><a href="mailto:mpiwg-sessions@lists.mpi-forum.org" class="">mpiwg-sessions@lists.mpi-forum.org</a><br class=""><a href="https://lists.mpi-forum.org/mailman/listinfo/mpiwg-sessions" class="">https://lists.mpi-forum.org/mailman/listinfo/mpiwg-sessions</a></div></blockquote></div><br class=""></div></div>_______________________________________________<br class="">mpiwg-sessions mailing list<br class=""><a href="mailto:mpiwg-sessions@lists.mpi-forum.org" class="">mpiwg-sessions@lists.mpi-forum.org</a><br class=""><a href="https://lists.mpi-forum.org/mailman/listinfo/mpiwg-sessions" class="">https://lists.mpi-forum.org/mailman/listinfo/mpiwg-sessions</a></div></blockquote></div><br class=""></div></div></div></blockquote></div><br class=""></div></body></html>