Message par s3phy » mer. févr. 04, 2015 3:42 pm

Oh, chacun sors ses meilleures anecdotes (dont au moins une ou deux que j'avais déjà entendueÀ mon tour donc !Alerte pavé. tl;dr en bas.Je suis en stage chez un fournisseur de serveurs dédiés. Un OVH-like quoi. Mais avec un gros côté support utilisateur. On s'arrête pas à fournir la machine au client, on lui pré-installe ses softs, on les lui configure, on migre ses données de son ancien serveur... Et à peu près tout ce qu'il veut d'autre, on lui met en place, pour 75$ de l'heure. Et les gens payent, et payent. Je suis en stage avec les administrateurs systèmes au service à la clientèle. En gros, le support tech niveau 2. On m'a direct foutu niveau 2 parce qu'une fois les tests d'entrée passés, il s'est avéré que je poutrais sa mère en sysadmin Linux. En tout cas en comparaison avec les autres gens qui postulent pour ce taf.Moi, jeune et naïf, je me disais que les gens qui prenaient un serveur dédié avaient les compétences pour l'utiliser. Quelle grossière erreur. Quand on fait du serveur dédié avec une bonne couche de support et surtout des bons vendeurs, on récupère tous les gens dont le site dépasse les capacités d'un hébergement mutualisé (en gros les mecs qui se sont fait foutre dehors des hébergements à 5$/mois vu que leur site consomme trop de ressources) et à qui on a vendu un serveur dédié comme la solution à leurs problèmes.Un truc qui marche bien pour les bitos du dédié : les panneaux de contrôle. C'est un machin qui s'installe sur un serveur par dessus l'OS et permet depuis une interface web de faire toutes les opérations qu'un sysadmin ferait habituellement avec des fichiers de configuration ou des lignes de commande. Installer des paquets, les configurer, etc. On en propose deux différents au client, cP*nel et Pl*sk. Le premier est made in amuhrica. On est bien formés dessus. Le truc est d'une facilité impressionnante à prendre en main, autant pour le client que de notre côté pour le dépannage. Tout est plutôt logique quand on est habitué à Linux et qu'on connaît un minimum les scripts Shell ou Perl. Le truc est presque incassable : quand un client vous annonce dans un ticket qu'il a TOUT cassé, et qu'il a réellement tout cassé, il y a un script qui s'appelle littéralement "fixeverything" et qui fait exactement ce que son nom indique : il répare tout et remet le serveur dans un état utilisable. Y'as quand même un peu de magie dans ce truc. En face de ça on a Pl*sk. C'est vendu par un grand groupe américain... à travers une filiale basée à Vladivostok. Les principales caractéristiques du bousin c'est que son interface web imite le thème/la charte graphique de Windows Vista ; et qu'on peut le vendre au Liban, à Cuba, à l'Iran... bref à tous les pays sous embargo US (et on a réellement des clients là bas d'ailleurs). Avant la version 10 ou 11, chaque mise à jour, même mineure (9.a à 9.b) était une opération délicate, sans grande garantie de fonctionner. Chaque mise à jour majeure (8 à 9), sûre de foirer, et donc on préférait proposer un serveur neuf au client et qu'il migre lui-même ses données entre ses deux serveurs. Ou on lui faisait pour 75$ de l'heure, mais vraiment parce qu'on AVAIT à le faire, et ça débitait par créneaux de 4 heures vu la quantité d'emmerdes qu'on était sûr et certain de rencontrer.Et donc, arrive ce jour, où j'arrive au bureau, et mon collègue/chef de service, me dit "tiens s3phy, on a une migration Pl*sk 7 Pl*sk 11 pour toi". Le fuuuuu--- est total. Si on a attendu que j'arrive, c'est parce que PERSONNE n'a voulu prendre cette merde depuis que les premiers collègues du créneau de jour sont arrivés quelques heures avant. Bon, un grand chocolat chaud, une grande inspiration, et on y va... Dernier ticket assigné... On ouvre... déjà ça prend du temps à charger. Ça sent pas bon. Le texte s'affiche... la scroll bar du navigateur devient petite... petite... putain mais y'as DES PAGES DE TEXTE SUR CE TICKET. Et il a été ouvert quand ? Y'as des mois et ça traîne depuis ? Non, juste une douzaine d'heures... wtf. Bon ben quand faut y aller... on reprend depuis le début.Le client a été alerté vers minuit/une heure que son serveur était inaccessible. Un collègue de nuit a voulu se connecter au serveur, mais il était vraisemblablement freezé. Même avec un KVM, rien à faire, rien qui réagit. On redémarre physiquement le serveur. Et là il ne se rallume plus. On envoie un technicien dans le datacenter inspecter ce qui ne va pas. La machine ne s'allume pas du tout. Le technicien déracke la machine. Tests des composants, carte mère HS. On a plus ce modèle de carte mère en stock : c'est une carte mère pour Pentium 4, avec RAM en DDR 1, et disques dur en IDELe client nous loue ce serveur depuis 8 ansEt il ne l'a jamais remplacéMon collègue informe le client qu'on ne pourra pas redémarrer son serveur, que les pièces de son vieux vieux serveur ne sont plus en stock, plus disponibles du tout... Et après quelques échanges, il lui propose la solution la plus censée avec les cartes qu'on a en main : remplacer tout les composants de son serveur par ce qu'on a en stock, demander une installation d'urgence du dernier Pl*sk, et migration de ses données de ses anciens disques durs vers sa nouvelle installation. Le client accepte, et le technicien remplace bloc d'alim, carte mère, processeur, RAM, et disques durs maintenant en SATA (en fait il finit par remplacer la totalité contenu du serveur, sauf son boîtier).Pour la migration des données, mon collègue de nuit fait brancher au technicien datacenter les anciens disques dur du client sur le nouveau serveur avec des adaptateurs IDE/USB (procédure classique chez cet hébergeur pour ce genre de cas). Dans le ticket qui fait 1km de long, je lis qu'il n'a pas réussi à accéder aux données. Il informe le client qu'il a des difficultés à restaurer ses données, puis le bout de la nuit est là, le ticket est refilé à mon chef de service, et finalement m'est transféré. Entre le moment où mon collègue de nuit s'est barré et le moment où je suis arrivé, personne n'a osé toucher à ce clusterfuck, le client a déjà répondu deux fois en demandant un avancement.Bon... Au travail. Déjà, répondre au client. Je suis dessus, je m'en occupe, laissez la police faire son travail, dès que nous aurons de plus amples informations, croyez-bien que vous en serez le premier informé. Ensuite, du gros bon sens pour commencer : migrer un Pl*sk 7 à un Pl*sk 11, ça marchera JAMAIS. La meilleure solution serait d'arriver à booter la vielle installation du client (à base de ... Fedora Core 2) sur cette nouvelle machine. On croise les doigts. Ça ne boote évidemment pas. Pourquoi est-ce que ça boote pas... Hm. Le chipset de la carte mère neuve qu'on a mis au client, qui est la carte mère la plus vielle/ancienne qu'on a stock neuve, n'est supporté qu'à partir du kernel 2.6.9. C'est pas tout jeune... Mais Fedora Core 2 a un kernel 2.6.5.Ça marchera jamais, plan B... rager et faire cette putain de migration. Les disques dur. Mon collègue de nuit a tenté d'accéder au premier disque, j'ai des logs d'un mount en ext4 (mais vu l'époque c'est du ext2) en read-write () avec un fsck qui a delete des tonnes et des tonnes d'inodes. Screenshots de ça, pour montrer l'état dans lequel je trouve cette situation. Un fsck ça peut détruire des choses. Pour le second disque, message au technicien de datacenter, probablement plus jeune que moi. Disques durs IDE. Tu sais ce que c'est des jumpers ? Met moi ça en master pour voir ? C'est détecté. On monte les disques. Premier disque : Euh mais il est vide à 90 % ?! Pourquoi /etc est vide ? Pourquoi /home est vide ? Pourquoi /var est vide ?Que dis le /etc/fsta... ah oui y'as plus de /etc. Bon y'as définitivement rien sur ce disque. Sur le second ? Ah. Y'as un /etc. Et un /home. Avec des trucs dedans... Mais pas beaucoup ? C'est curieux... Et soudainement, au détour d'un ls -l : Mais y'as aucun fichier sur ce disque plus récent que 2006Quelques mois après que le client ait pris ce serveur. Ça sent le sapin. C'était pas censé être un RAID mirroring ? Bon au moins y'as des logs... Et là, l'échec : la dernière entrée de log, de 2006, indique que le RAID s'est dégradé, et que ce disque était sorti du RAID. Ah. Mais le client, il a bien des mails de notification ? C'est bien configuré... Donc le mec ignore les mails de rappels lui disant que son RAID est dégradé depuis 7 ans ?Et le crash du serveur semble avoir emporté avec lui le système de fichiers où y'avait le seul exemplaire de ses données-super-importantesOu alors mon collègue de nuit n'ayant pas été très fin a tué par mégarde toute possibilité d'une issue heureuse ?Bon bon bon bon bon. Je tiens au courant le client. Qui répond qu'il n'a aucun backup de son côté, mais qu'on devrait regarder, il a une solution de backup chez nous. Y'en a pas de trace dans sa fiche client/dans ses facturations. En plus, vu l'époque où son serveur a été mis en place, il doit être sur l'ancien système de backup (des simples rsync vers des serveurs gérés par la boite), système qui était en train d'être supprimé lors de mon stage précédent, un an avant. Mes collègues commencent à me dire "oh la merde. oh le c*n. et il a pas de backup ? et il s'en fout ? envoie le chier, j'ai aucune pitié pour les gens qui ne font pas de sauvegarde de leurs données et qui se plaignent après. c'est dans son contrat, on ne s'occupe pas des données. envoie le chier sérieux, arrête de perdre ton temps, ça fait déjà combien d'heures qu'on passe sur ce ticket ?!"Ouais mais je me met à la place du client... Bon, retrouvons l'ancien serveur où les données du client étaient backupées, l'ancienne solution de backup n'est toujours pas complètement arrêtée, y'as encore quelques clients dessus... y'as peut être toujours un backup... demande au responsable de cette solution de backup : non, ton client n'a aucun backup ici. Fouille des archives des tickets du client : c'est censé être sur le serveur xxx de notre côté... la dernière demande à ce sujet remonte à y'as 7 ans... peut être que c'était toujours en fonctionnement ? Il est passé où ce serveur xxx... Décomissionné y'as un mois. Ses disques sont passés au formatage y'as... deux jours.Bon ben... "Cher client. Votre serveur a lâché la nuit dernière. Il était tellement vieux qu'on avait aucune pièce de rechange. Son RAID était cassé, et vous avez ignoré pendant 7 ans les mails de notification. Vous étiez certain d'avoir une solution de backup chez nous, pourtant au plus loin que je remonte, je n'en trouve aucune trace dans votre historique de facturation. Je retrouve bien une demande de mise en place il y a 7 ans, à laquelle vous n'aviez jamais répondu. Au point où on en est, on peut vous proposer d'envoyer vos disques durs chez une société spécialisée de récupération de données, mais c'est à vos frais et ça coûte méga reuch. Mais hey, vous avez un serveur tout neuf avec un Pl*sk 11 tout vide dessus !"Il a pas répondu. Par contre après quelques minutes j'ai entendu le ton hausser du côté du support téléphonique. Et puis au service résiliation/fidélisation. J'ai remercié sincèrement ma collègue de ce service qui l'avait pris au téléphone (après l'avoir briefé sur la situation pendant que le client attendait). J'en ai plus entendu parler... Jusqu'à quelques heures avant de mon départ de la boite, où le ticket, qui m'était toujours assigné, a été ré-ouvert avec une/deux pages de legalspeek et de menaces de poursuites... Ticket transféré à mon chef de service, mon stage est fini.tl;dr : le client a un serveur super vieux qui tombe en panne. Il a ignoré les mails d'alerte pendant des années, n'a aucune sauvegarde et vient se rend compte de la situation dans laquelle il est uniquement quand c'est trop tard. C'était à moi de tout faire pour régler la situation... Et lui annoncer le décès de sa grand mère.