PplWare Mobile

“Erro humano” na origem do apagão da Portugal Telecom

                                    
                                

Este artigo tem mais de um ano


Autor: Pedro Pinto


  1. Luis Vitorino says:

    Diria que é uma explicação… hmmm… pouco conclusiva e deveras intrigante. Já que optaram por comunicar que foi um erro humano, julgo que deveriam ser mais técnico-explicativos.

    Segundo entendo, já existia uma avaria ao nível da Storage. Seria um disco? Não me parece.. pois para substituir um disco de uma storage não é preciso vir um técnico especializado.

    Ainda assim, se fosse um simples disco, pelo que se entende é que o técnico substituiu o disco errado, deixando o disco avariado também presente… provavelmente terá destruído o RAID e a partir daí foi o colapso.

    Terá sido só isto?

  2. Zé Cloud says:

    No meio desta notícia fiquei perdido onde está a redundãncia?
    Uma cloud , erro humano o homem partiu o datacenter inteiro?

    Só petas! Alguem ficou com os seu dados partilhados por ai….

    • int3 says:

      Vou me dar ao trabalho de te responder.
      Tens 2 coisas. Redundantes. um falha. O que falhou tem que ser substituido certo? O erro foi que o que estava a funcionar é que foi substituido. Entendeu Zé “Cloud”?

  3. Bernardo Leitão says:

    É verdade… foi erro humano. Tens teoricamente redundância no local, só que se tens 2 equipamentos espelhados de storage e se 1 deles falha ficas só com 1 em funcionamento…. depois de o técnico vai trocar hardware no que esta operacional ficas sem serviço…. e como ficaram as 2 unidades sem serviço para recuperar o serviço foi necessário verificar novamente os dados todos o que demora horas… O ser um técnico da EMC é “normal” no empresarial, é hardware muito especifico e soluções custom made.

  4. Andre Alves says:

    Um disco?
    nem por isso!

    qualquer um troca um disco num sistema de raid! não é preciso vir um técnico

    e mais, não me acredito que num sistema cloud / storage o raid seja tipo 5.

    Podera é a peca em questão ser a controladora raid de todo o sistema storage que faz a gestão de todos os discos a pifar!
    mas mesmo assim, tem que haver redundância dos sistemas principais,

    Meus amigos!

    disaster recovery plan onde ficou?

    E havia um incendio ou inundação?

    perde se toda a info da malta tuga?

    Temos que pensar seriamente, em substituir esses pseudo engenheiros da carrocinha que não pensam nestes detalhes simples!

    Era bonito se fosse o site das finanças no ultimo dia para meter o IRS!!!

    quem ia ser o alvo a abater?

    Mais não digo

  5. JCR says:

    Não se tratou de um disco do storage e a redundância existia. O problema foi que em vez de substituir o componente avariado se substituiu o que garantia a mesma redundância.
    Em termos de comunicado à imprensa não faria muito sentido entrar nos detalhes técnicos. Os mesmos foram prestados aos clientes.
    Se por um lado este episódio “queima” a reputação da PT ao nível da população em geral e “escalda” actuais e potenciais clientes é importante frisar que a responsabilidade foi do fornecedor e não se trata de um fornecedor qualquer (EMC). O mais provável será a própria PT exigir eventuais compensações pelo dano, condições essas que, por norma, estão escritas nos respectivos contratos.

    • JJ says:

      No meio disto tudo o que acho mais grave foi o tempo para resolver o problema. 48h é muito tempo.

    • Andre Alves says:

      JCR,

      não concordo com isso!

      Entao os responsáveis de manutenção nem viram ou avisaram qual o maquina que tinha que ser reparada!

      Aos medias não tem logica dar detalhes técnicos, mas aqui a nos sim.

      Eu sempre que vem um técnico exterior fazer manutenção de um servidor ou trocar um compomente, não sai debaixo da minha visão, e sei sempre a todo o momento o que ele esta a fazer!

      algo que não bate certo. e como diz o JJ, se a peça que mantinha a redundância foi trocada, então o serviço ia estar off, não bate certo isto!

      • VAL says:

        aquelas maquinas em especial estão a cargo da empresa EMC, e é essa empresa que faz a manutenção dos equipamentos com supervisão das mesmas. Um dos storages avariou e o tecnico conseguiu avariar a maquina de redundancia. Mas assim que se apercebeu que se tinha enganado, ainda conseguiu estragar o resto na maquina principal.
        Em relação ao tempo, além de repor os serviços, repor cerca de 700 teras de backup, demora…

        • Andre Alves says:

          Eu so não percebo como é que as duas maquinas ( principal e redundância ) estão no mesmo edifício

          Continuo a dizer

          “disaster recovery plan”

          eu sei que sou um simples técnico mas ate aos meus clientes indico sempre para ter copias em sítios separados fisicamente.

          Vou um exemplo, a Samsung a uns anos, ardeu a sala onde estavam as maquinas com os serviços a clientes. demorou duas horas a repor tudo.

          Actualizar DNS na web!

          Lamentar como uma empresa com a PT, deixa isto acontecer e ainda para mais não tem planos funcionais

          • TT says:

            Para um caso destes não se pode falar em Disaster Recovery, o que a PT deveria ter é Business Continuity Plan, são coisas bem destintas.

            Deixo a minha solidariedade para com o Técnico, o risco é inerente á nossa profissão e so não erra quem não faz, ao que parece a solução agora é escalar o Técnico ao meio e coloca-lo no Desemprego.

            Para os técnicos aqui neste post, ja não fizeram asneira??? Restart á maquina errada e por ai fora?

            É sempre bom para agitar o mercado nas vendas, mais um exemplo para usar nas minhas reuniões comerciais 🙂

            Abraço

    • Jorge says:

      A responsabilidade é da PT e não de um qualquer fornecedor.
      Gente fraca atira com as responsabilidades para terceiros, há algum tempo que se percebeu que a PT é comandada por fraca gente.

      Este triste episódio pôs a nú as fagilidades da PT, esperava-se muito mais da PT. Não chega fazer showoff a construir cubos.

  6. JJ says:

    Aqui alguma informação mal dada.

    Então se um “hardware” já estava avariado, era apenas o “hardware bom” que estava assegurava o funcionamento do serviço.

    Se foi o “hardware bom” substituído por um novo, então o serviço deveria ter continuado a funcionar, mesmo que tivesse intermitências.

    Agora, mesmo sendo falha humana, 48 horas para trocar (mesmo que por duas vezes) o “hardware”, é muito tempo.

    Eu tenho sites, e em 10 anos, consigo contar pelos dedos das mãos as horas que tive os mesmos offline por motivos técnicos/actualizações. E pago substancialmente menos que essas empresas pagam a PT…

    Essas empresas num fim-se-semana tiveram umas 5x mais tempo offline que eu tive em 10 anos.

    Estou orgulhoso do serviço que utilizo (www.konexys.pt).

    • zéi says:

      Deixa-me ser teu fã !

    • Luis Vitorino says:

      Se isso que dizes foi o que aconteceu… só importa saber de que forma foi efetuada a intervenção no hardware “bom”.

      imaginando que era a controladora RAID a ser substituida… lá se ia a informação de todo o sistema…

      … e não houve redundancia porque o outro nó já era o hardware “mau” (seja o que for)

    • Diogo says:

      JJ,

      1º Não foram 48h para trocar o hardware, foram 48h para repor os serviços a todos os clientes.

      2º Se achas que serviços de Cloud é só oferecer alojamento de sites, informa-te melhor.

      Deixo-te uma pergunta, se o teu serviço, do qual te orgulhas, sofresse um ataque DDOS, qual era a capacidade de resposta?

      • JJ says:

        1º Logicamente 48h não foi só para trocar o hardware, mas não deixa de ser muito tempo para ter um serviço todo em baixo. A PT, sendo a empresa que é, não deveria ter um backup pronto a entrar em funcionamento, para casos destes? Sei que ela tem estrutura mais que suficiente para contornar esta situação. Houve aqui uma falha maior do que simplesmente um técnico que se enganou a trocar um hardware.

        2º Em nenhuma parte disse que serviços Cloud era só oferecer alojamento. Que observação sem sentido.

        3º O que aqui aconteceu não foi nenhum ataque DDOS, por isso não faz nenhum sentido esse tipo de observação. Sem entramos por ai, pergunto eu qual é o tempo de resposta da PT, se para um problema no local esta off durante 48h, se for um problema externo demora quanto tempo!?

  7. DD says:

    E testes após substituição do equipamento???

  8. Nuno Silva says:

    Parace que toda a gente “99%” das pessoas continua a confundir Cloud com Cluster! Se isso fosse uma cloud aserio não existia downtime. Contudo devem ser tido em conta os vários aspetos da cloud principalmente quando envolve empresas e organizações, pois uma cloud a serio não terá simplesmente servidores, storage na mesma localização física, com isto podendo até estar noutros países com diferentes legislações, etc…

    Aconselho a leitura da documentação fornecida pela NIST a todos os interessados em saber mais…

  9. eleck says:

    um apagão!? não vi nada XD

  10. zéi says:

    Já no caso BES a culpa foi do contabilista !

  11. Zefra says:

    Fazem o pessoal andar a fazer figuras tristes no meio de testes e mais testes e quando acontece algo a serio e simples afinal usamos o mais comum em nos humanos… a culpa e do outro e não minha. Como já se disse e onde esta o “disaster recovery plan” Isso faz-se para a Inspeção ver mas na realidade não funciona..Xiça

  12. Rui Moreira says:

    Isto cheira muito mal, quer dizer que um técnico da EMC substituiu alguma coisa no array e aquilo deixou de funcionar ? Acho estranho que deixem sair o técnico das instalações sem primeiro verificar que o trabalho ficou concluído , será que não havia ninguém competente para fazer isso ???? E parece-me muito estranho não costuma ser esse o procedimento da EMC mas ok …..

    • JJ says:

      E pergunta-se… os sites/serviços deixaram de funcionar quando esse hardware avariou ou foi depois de terem sidos substituídos?

      É que pela noticia fica a ideia que o serviço estava a funcionar e depois de terem feito uma substituição é que os serviços deixaram de funcionar.

      • JCR says:

        Sim, foi depois da substituição. Ao substituir-se o que estava a funcionar foi-se a redundância

        • JJ says:

          Então antes de se substituir copias os dados do “velho” para o “novo”, certo?

          Então como é que foi-se a redundância, se o novo hardware deveria ter os mesmos dados que o velho?

          • JCR says:

            Não seria necessário copiar pois assumia-se que o controlador bom mantinha o sistema a funcionar como se nada fosse. A partir do momento em que retiram o controlador bom, sendo que do outro lado estava o outro que não funcionava, a coisa borregou…

  13. zeca says:

    Grande parte do pessoal da PT escondem-se atrás do pessoal do outsourcing…eu não fui,foi ele!

    É uma vergonha isto acontecer principalmente para o tubarão que a PT é!

  14. Antonio Paiva says:

    Bom, vejam bem isto:
    Sexta dia 13, 17 clientes de norte a sul do país meus que têm linhas ptprime de fibra ficaram das 15 às 18 sem dns da PT… só pingavam ip’s, mas dns, nada…
    Sábado, dia 14, às 16 horas dois clientes meus que têm ambos servidor no Picoas e vpn’s dedicadas para lá deixaram de conseguir aceder… vpn checkpoint externa para ambos os servidores em baixo… o serviço só voltou domingo dia 15 pelas 17 horas…
    Penso que não será preciso dizer muito mais para se adivinhar o que se passou na PT este fim de semana passado…

  15. Xtreme says:

    Os servidores de picoas foram todos migrados nesse fim de semana para a Covilhã lol

    (As melhores explicações são normalmente as mais simples)

  16. so um gajo says:

    É só outsourcings depois dá nisto devia estar a ver o fb ao mesmo tempo que “trabalhava” …

  17. Antonio Paiva says:

    Bom, presumo que os dns também…. mas que grande falta de responsabilidade… ainda por cima na Covilhã está tudo marado mesmo… enfim… coisas de hackers que são explicadas com milho para os pardais.

  18. Miguel Marques says:

    Esta situação não deixa de ser cómica vindo de onde vem.

    Depois de ler posts aqui colocados por leitores a fazer especulações do que ocorreu pergunto-me se alguém aqui ouviu falar verdadeiramente da EMC2 e do verdadeiro core-business deles!
    Vocês sabem o que é uma SAN? E para que serve?

    Outra Coisa as SANs não usam RAID mas direct-attached storage (DAS) (O RAID vem depois) onde são criadas “ilhas” de discos SCSi cada uma dedicada a uma aplicação, e visível como uma série de “discos rígidos virtuais” (ou seja, LUN). Essencialmente, uma SAN consolida essas ilhas de armazenamento em conjunto, utilizando uma rede de alta velocidade.

    Dito isto julgo que, o que deve ter falhado foi uma das controladoras de Fibra e a troca não foi bem feito o causou o downtime na PT.

    • Miguel Marques says:

      E outra coisa, não esquecer o desgraçado que causou o downtime na já não deve de ter o emprego. Porque nestas situações estas empresas são implacáveis nos despedimentos por justa causa.

    • cac says:

      O amigo está a fazer uma grande confusão entre SAN e RAID. RAID é o acrónimo de Redundant Array of Inexpensive (nome original agora é Independent) Disks e engloba uma série de técnicas para através da criação de redundância proteger a informação em caso de falha dos discos físicos. O RAID 1 por exemplo emparelha dois discos em que os dados são escritos nos dois discos, o RAID 5 acrescenta informação de paridade aos dados de modo a que em caso de falha de um disco a informação nele contida pode ser reconstruída. Hoje em dia todos os sistemas de armazenamento usam os discos em RAID. A SAN é outra coisa, trata-se de uma rede que interliga os servidores ao sistema de storage, e é hoje em dia largamente utilizada em detrimento do DAS que foi utilizado antes do aparecimento das SAN com óbvias limitações dado que não permitia ligar mais servidores do que o número de portas do sistema de storage.

  19. DD says:

    Depois de tudo, lamento muito o que o tal técnico deverá estar a sentir neste momento.

    Poderá de facto ter cometido algum erro, nós seres humanos estamos sujeitos à pressão, e à perturbação do que nos rodeia e do que nos vai no íntimo, mas a dificuldade de resolução do problema deverá ter estado certamente relacionada com o setup que estava implementado.

    Atribuir TODA a culpa a UMA SÓ PESSOA, que teve provavelmente o azar de lhe ser atribuída tal intervenção, na qual talvez qualquer outro técnico acabaria por cometer o mesmo erro, é super injusto.

    Uma explicação transparente sem incriminar uma só pessoa, passaria por providenciar informações sobre o componente que sofreu a avaria, sobre o setup do qual o componente fazia parte, das limitações e riscos desse setup, e depois do que correu mal na reparação.

    Talvez alguém da equipa técnica acabe por poder explicar isso, o que servirá de crítica construtiva para todos os que trabalham nessa área. Se aconteceu com a PT, poderia acontecer com qualquer outra empresa!

  20. KitKat says:

    Existe aqui muita malta a comentar que não sabe o que se passou e manda postas de pescada sem saber o que está a dizer e mais não digo… A única coisa que posso afirmar é que a culpa foi efectivamente da EMC, tal como é afirmado pela PT.

  21. Rui C says:

    É só engenheiros de qualidade em Portugal, ou não!

  22. Filipe Forreira says:

    Boas,

    Técnicamente não sei bem o que se passou, o que eu sei é que foram muito mais que 48h, nas primeiras horas, como estavam poucos sites em baixo o pessoal ignorou por completo pois não lhes apetecia trabalhar durante a noite. Pelo que percebi pela informação que me iam passando o sintoma inicial era a controladora de storage que estava a dar problemas, mas como já referi não lhes apeteceu trabalhar logo, o que levou a que tanto a controladora como a maior parte dos discos queimaram (não sei onde é que esteve o técnico da EMC, nem onde é que ele entrou nisto).
    Tanto o técnico da EMC teve culpa como a pessoa que decidiu aguardar pela manhã a teve. A causa desta situação ainda está por apurar, mas possivelmente será devido a simples avaria e “deixa andar portugues”
    Garantidamente NÂO FOI UM ATAQUE DE PIRATAS!!!!!
    (eu fui um mero intermediário afastado desta situação)

  23. Miguel Marques says:

    Deixem de pagar 600 mensais ao técnicos…paguem um devido ordenado e talvez o técnico no futuro tenha mais atenção…

  24. Ricardo Gaio says:

    Foi um herro umano… 😀

  25. Joao says:

    Uma pequena pergunta, para quem acha que o presumível técnico que fez a asneira deve ser despedido.

    Esta apagão causou danos pessoais? Houve perca de vida humana? Algum sistema informático de saúde esteve em risco?

    Se não, então tenham calma com o homem. So não erra quem não trabalha.

  26. Filipe Forreira says:

    Boas,

    Últimas informações indicam que o que se passou foi que de facto a controladora de storage avariou, logicamente passaram para a de backup e chamaram o técnico. Até aqui tudo bem, certo?
    O problema é que o técnico chegou ao local e em vez de trocar a controladora principal, trocou a de backup (que estava a funcionar corretamente) por uma que estava avariada! (conclusão: nem principal nem backup) agora falta apurar se quem decidiu qual carta trocar foi o técnico ou se foi a PT…. Mas que o técnico trocou uma controladora boa por uma estragada, isso já se percebeu.

  27. Jose Simoes says:

    Tudo o que a PT deveria dizer era “estimamos que estivemos em face de um evento que acontece uma vez em cada x dias”.

    Ou então publicar uma informação detalhada do funcionamento do sistema (aí umas 500 páginas).

    Tudo o resto é completamente subjectivo e ultimamente inútil.

  28. Aguiar Lourosa says:

    Como em tudo na vida, todos partem de alguns pressupostos que não parecem fazer sentido.
    A questão do trolha ou recurso mal pago foram buscar onde?

    Parece evidente que houve erro humano (quem nunca errou?), mas que o azar foi o erro humano ter incidido sobre um projecto mal desenhado, caso contrário ninguem estaria a falar nisto agora.

    AL

  29. Palermas says:

    Deixem se de tretas. È simples. Basta falar lingua de gente humana.

    Avariou-se um disco num conjunto de 2. O palerma do tecnico substitui o que estava bom em vez do avariado.

    Resultado: O disco com informação foi retirado, ficando apenas um disco novo e um disco avariado, logo não ha informação no disco.

    Portanto foi preciso o tecnico do fabricante da storage colocar o anterior, mais um disco novo e reconstruir manualmente o indice e a garantir de novo a integridade da informação.

    Regra geral estes tecnicos que vao ao local para este tipo de problemas sao subcontratados e não precisam de ser altamente especializados. Apenas quando é preciso reconstruir a integridade da informação de forma manual e não automatica como seria suposto ter acontecido, recorre-se normalmente aos tecnicos do fabricante com conhecimento mais avançado.

  30. Golias says:

    O que esperam mais da PT?

    assumiu a responsabilidade a quem presta serviços,irá aplicar uma penalidade no fornecedor, emitiu um comunicado genérico sobre o problema. É uma empresa com elevado grau da confiança, é uma empresa com várias certificações ISO, é cotada em bolsa, está sujeita a SLA’s de 99,%. Só tem uma coisa má, uma publicidade péssima. Eu Confio 🙂

  31. PbC says:

    Caros,
    Há mais exemplos públicos de situações de “desastre” que tenham originado downtime a serviços de empresas? Preciso desta info para um trabalho a realizar.

Deixe um comentário

O seu endereço de email não será publicado.

You may use these HTML tags and attributes: <a href="" title="" rel=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code> <del datetime=""> <em> <i> <q cite=""> <s> <strike> <strong>

*

Aviso: Todo e qualquer texto publicado na internet através deste sistema não reflete, necessariamente, a opinião deste site ou do(s) seu(s) autor(es). Os comentários publicados através deste sistema são de exclusiva e integral responsabilidade e autoria dos leitores que dele fizerem uso. A administração deste site reserva-se, desde já, no direito de excluir comentários e textos que julgar ofensivos, difamatórios, caluniosos, preconceituosos ou de alguma forma prejudiciais a terceiros. Textos de caráter promocional ou inseridos no sistema sem a devida identificação do seu autor (nome completo e endereço válido de email) também poderão ser excluídos.