Le 21/11/2013 08:44, Loic GASCHE a écrit :
J'ai recu toute la nuit des messages d'erreur de caparmor :
Hello lgasche, your job 5931603.service0, jobname simulation-sim_ using 33 cores have performance ratio as 0.00. Your real time (wall time) is 03:39 where as your CPU time is 00:00. This job blocks 33 cores, thus your cpu time should get closer to 33 * your real time (wall time). If you can improve the performance of your job, your calculation runs faster (and you can make economy of computational resource). Please check your code, and see if you do not do unnecessary io access or bad usage of MPI or OpenMP, or running non optimised paralleljob. This is an automatic e-mail from caparmor.
Apparemment il n'est pas content car le job 5931603 ne tourne pas.
Ce qui est marrant c'est qu'il dit que ce job tourne sur 33 coeurs...
C'est moi qui ai lancé deux fois le même jobs sur deux files différentes.
Est-ce que je mets fin à ce job ?
Oui.
Le jour ou j'ai besoin de plus de 8 coeurs il me suffit donc de taper -q parallel nbCoeurs pour utiliser une des queues jusqu'à 256 ?
Non, c'est "parallel8", ou "parallel256" (sans espace) Il n'y a que 5 ou six file spécifiquement disponibles.
Dans son mail Denis indique que les queue ont un temps limité. Par exemple 18 heures pour la 256 coeurs. Qu'est-ce que cela signifie ? Que se passe-t-il si mon AS n'a pas fini de tourner après 18 heures ? C'est une contraintes de caparmor et plus spécifiquement de la politique d'allocation des ressources sur les super calculateurs. Ils veulent bien que tu prennes plus de coeurs, mais à condition que tu les "monopolise" moins longtemps.
C'est à toi de voir suivant ta région. Si tu pense que l'AS prend plus de 18 heures, il faut que tu utilises moins de coeurs. Sinon caparmor tuera les jobs trop longs. -- Éric Chatellier - Code Lutin Tel: 02.40.50.29.28 - http://www.codelutin.com