Hello Benoit,

Toujours fasciné par le rapport de complexité entre le matériel et le logiciel, inversement proportionnel à leur fiabilités respectives.

Ca ne correspond pas à mon expérience passée à développer des systèmes hardware et software de télécommunications :

Nos écosystèmes étaient probablement très différents. Ici pas mal d'indus et surtout de coms milis


 - le management plane et le control plane sont généralement beaucoup plus complexes que le dataplane  - le management plane et le control plane évoluent généralement beaucoup plus rapidement avec des mises à jour de code et configuration fréquentes  - à contrario, le dataplane doit être le plus rapide possible et un uptime infini

De plus le coût d'un bug hardware étant bien supérieur au coût d'un bug software,

La grosse diff. entre le hard et le soft. Ça peut même couler un boite ou un projet entier.


on investit beaucoup plus de budget sur le test et la vérification hardware que sur le software. Et malgré ça, le hardware est tout de même buggé et le workaround est généralement software...

Il y avait des soucis de tenue, jusque dans les années 80. Mais le passage à une électronique essentiellement numérique a pas mal limité les délires propres à l'analogique, aux températures, aux dispersions de caractéristiques, tolérances, etc. Après on a eu tous les soucis de statique, d'IEM, etc. Mais c'est réglé depuis longtemps. Après, il restera toujours de l'analogique, (horreur :) et même (comble du mauvais goût) de l'analogique qui doit être linéaire :)


Tout ça pour dire que les contraintes ne sont pas les mêmes entre un dataplane limité en fonctionnalités et stable dans le temps vs un control plane en constante évolution et intégrant toute la complexité métier.

Tout à fait.

J'évoquais surtout la diff entre le pur hardware numérique et le software seul. Pas été assez précis, désolé.

Pour aller dans ton sens, j'ai des souvenirs d'e2prom avec crypto embarquée complètement bugguées... Obligé de leur mettre leur caca devant leur nez pour qu'ils avouent. X***r, saloperie. Et il ne doit pas y avoir un seul proc Intel sans bug non plus...


Enfin, les maigres détails du postmortem ne disent pas grand chose, difficile de se faire une idée. "A key software component failure" ça peut être Grok qui a halluciné la configuration des cores routers :)

Si on a  des ressources pour avoir du postmortem, un moniteur intégré, les bonnes règles de design, etc, ça aide. Si on a pas l'argent pour anticiper et créer des ressources de debug, ça sera une belle boite noire avec des messages à la con comme celui que tu cites. On en revient à qui gère le projet (un gland ou pas un gland) et le budget alloué au projet (suffisant ou pas). Enfin, pour la plupart des projets, c'est le TTM qui compte (question d'époque) mais /le temps ne respecte pas ce qui se fait sans lui/ (paul morand).


--
Stéphane Rivière
Ile d'Oléron - France

---------------------------
Liste de diffusion du FRnOG
http://www.frnog.org/

Répondre à