Bonjour,
Voici plusieurs jours que j'essaye de joindre Tina au sujet d'un job
que essayons de lancer sur caparmor.
C'est une analyse de sensibilité de grande taille lancée avec le
simulateur ISIS-Fish, qui nécessiterait un nombre important de coeurs.
Nous avons dernièrement fait évoluer le modèle afin d'écrire un
minimum d'informations, et de préférence dans la ram, afin de limiter
les accès disques pour gagner du temps de simulation.
J'ai procédé la semaine dernière à des tests de ce modèle sur caparmor
en faisant tourner de petites analyses de sensibilité. Tout s'est bien
déroulé avec des temps de simulation qui sont passés sous la barre des
3 heures pour une simulation.
J'ai donc lancé la grosse AS que nous souhaitions réaliser jeudi soir,
en faisant un mail à Tina pour le lui indiquer afin que nous puissions
regarder le lendemain si tout tournait correctement et
éventuellement allouer plus de coeurs à ce job pour le weekend.
Il m'a semblé vendredi que les simulations ne tournaient pas
correctement et étaient tuées par caparmor car elles n'étaient pas
terminées au bout de 3 heures.
Ces simulations sont pourtant plus simples que celles testées avant,
et qui tournaient en moins de 3 heures.
N'étant pas un grand expert de caparmor je cherchais à obtenir des
informations sur ce qui a pu se passer :
- les simus ont-elles bien été tuées en raison de leur durée > à 3
heures (nous utilisons la queue isisfish, par le passé Tina avait
augmenté le temps max par simu à 5 heures mais l'avait baissé à 3
dernièrement je crois) ?
- nous avons normalement drastiquement réduit les écritures sur le
disque, pourtant notre temps de simulation n'a que peu diminué (on
espérait descendre largement en dessous de 3 heures), serait-il
possible de savoir d'où vient l'essentiel des temps de simulation et
si beaucoup d'accès disques ont encore lieu ?
- est-il possible qu'une même simulation prenne plus de temps pour
tourner quand elle appartient à un job de grande taille plutôt qu'à un
job contenant uniquement quelques simulations ? Caparmor a-t-il sa
propre manière de calculer les temps de simulation ?
- ces temps de simulation élevés peuvent-ils être expliqués par une
surcharge de caparmor à ce moment là ?
- Dans l'hypothèse où ces soucis sont causés par caparmor et non par
le modèle et qu'il faut effectivement 3 à 4 heures pour faire une
simulation, serait-il possible d'augmenter le temps alloué à chaque
simulation d'une heure ?
Cordialement.
Loïc Gasche
----- Message transféré de Loic.Gasche(a)ifremer.fr -----
Date : Fri, 21 Feb 2014 17:46:01 +0100
De : Loic GASCHE <Loic.Gasche(a)ifremer.fr>
Objet : error 143 : ISIS jobs killed because wall time is reached ?
À : ODAKA <Tina.Odaka(a)ifremer.fr>
Hi Tina,
I thought that my simulations were running well but could not check in
ISIS because the interface had crashed.
However I did a pbs-report and it appears that all my simulations have
exited with code 143. I think this means that they have been killed ?
It seems that the wall time for my simulations is over 10800, is it
the reason why they were killed (if they were) ?
I ran tests on caparmor with similar parameters before running my big
SA and everything ran well, and in less than three hours. I may even
have less rules than in my tests so simulation time should be even
lower.
Besides we are writing files in the ram and keep only the 13 last
timeSteps, which should help reduce time too.
Do you see any reason why we could have reached the maximum time for
this SA and not for the others ?
Loïc
----- Fin du message transféré -----