“Erro humano” na origem do apagão da Portugal Telecom
No passado dia 14 de Fevereiro (Sábado), vários sites alojados nas infra-estruturas da PT, incluindo os do grupo Cofina (Jornal de Negócio, Correio da Manhã e Record) e grupo Impresa (SIC) ficaram completamente sem serviço. Depois de vários esforços, que tiveram inclusive a participação de engenheiros da multinacional americana EMC, o “apagão” foi resolvido.
A PT veio agora referir que tal “apagão” se deveu a um “erro humano” do fornecedor americano de equipamentos de armazenamento de dados.
O problema nos servidores da PT que afectou dezenas de empresas foi causado por um erro humano da fornecedora EMC. Vários sites de informação ficaram em baixo durante 48 horas. Há empresas que admitem vir a pedir compensações e até mudar de fornecedor, segundo informa o Jornal de Negócios”.
Na origem do problema esteve uma avaria nos sistemas de armazenamento de informação da marca EMC que estão alojados nos centros de dados da PT em Picoas. Fonte da empresa desmentiu ao Expresso que este problema tinha sido resultado de um ataque hacker e esclareceu ainda que a avaria não teve qualquer ligação com o novo centro de dados da empresa na Covilhã.
Ao Jornal de Negócios, fonte próxima da PT, referiu que o técnico enviado pela EMC para substituir o hardware avariado, equivocou-se e trocou o componente errado, deixando no local o hardware avariado.
De referir que a a EMC é um dos principais fabricantes de sistemas de storage, à escala mundial.
O Pplware continuará atento a todas as informações que forem divulgadas sobre este caso que é já considerado o maior apagão na história da web portuguesa.
Este artigo tem mais de um ano
Upss.
Diria que é uma explicação… hmmm… pouco conclusiva e deveras intrigante. Já que optaram por comunicar que foi um erro humano, julgo que deveriam ser mais técnico-explicativos.
Segundo entendo, já existia uma avaria ao nível da Storage. Seria um disco? Não me parece.. pois para substituir um disco de uma storage não é preciso vir um técnico especializado.
Ainda assim, se fosse um simples disco, pelo que se entende é que o técnico substituiu o disco errado, deixando o disco avariado também presente… provavelmente terá destruído o RAID e a partir daí foi o colapso.
Terá sido só isto?
Não…
Tratou-se de uma controladora VMWARE, apos uma avaria na redundante o fornecedor foi reparar e acabou por intervir na errada. No entanto apenas se apercebeu apos ter sido apagados os dados da mesma. Foi necessário voltar a definir as partições e a verificação da integridade dos dados.
O que é uma controladora VMWARE?
Este jovem enganou-se,a adivinhar terá sido eventualmente uma controladora do storage EMC, facilmente de adivinha que só haveria 2 controladoras. Foi azar, acontece.
COntroladora VMware????? Anda a beber mt esta gente :D!
No meio desta notícia fiquei perdido onde está a redundãncia?
Uma cloud , erro humano o homem partiu o datacenter inteiro?
Só petas! Alguem ficou com os seu dados partilhados por ai….
Vou me dar ao trabalho de te responder.
Tens 2 coisas. Redundantes. um falha. O que falhou tem que ser substituido certo? O erro foi que o que estava a funcionar é que foi substituido. Entendeu Zé “Cloud”?
É verdade… foi erro humano. Tens teoricamente redundância no local, só que se tens 2 equipamentos espelhados de storage e se 1 deles falha ficas só com 1 em funcionamento…. depois de o técnico vai trocar hardware no que esta operacional ficas sem serviço…. e como ficaram as 2 unidades sem serviço para recuperar o serviço foi necessário verificar novamente os dados todos o que demora horas… O ser um técnico da EMC é “normal” no empresarial, é hardware muito especifico e soluções custom made.
Um disco?
nem por isso!
qualquer um troca um disco num sistema de raid! não é preciso vir um técnico
e mais, não me acredito que num sistema cloud / storage o raid seja tipo 5.
Podera é a peca em questão ser a controladora raid de todo o sistema storage que faz a gestão de todos os discos a pifar!
mas mesmo assim, tem que haver redundância dos sistemas principais,
Meus amigos!
disaster recovery plan onde ficou?
E havia um incendio ou inundação?
perde se toda a info da malta tuga?
Temos que pensar seriamente, em substituir esses pseudo engenheiros da carrocinha que não pensam nestes detalhes simples!
Era bonito se fosse o site das finanças no ultimo dia para meter o IRS!!!
quem ia ser o alvo a abater?
Mais não digo
E a redundância ficava no mesmo local?
Tendo em conta o Data Center da Covilhã, no mínimo a PT já devia ter lá um backup para este tipo de urgências.
E o que acontece quando trocas o hardware que estava a funcionar em vez do que o que falhou?….
Não se tratou de um disco do storage e a redundância existia. O problema foi que em vez de substituir o componente avariado se substituiu o que garantia a mesma redundância.
Em termos de comunicado à imprensa não faria muito sentido entrar nos detalhes técnicos. Os mesmos foram prestados aos clientes.
Se por um lado este episódio “queima” a reputação da PT ao nível da população em geral e “escalda” actuais e potenciais clientes é importante frisar que a responsabilidade foi do fornecedor e não se trata de um fornecedor qualquer (EMC). O mais provável será a própria PT exigir eventuais compensações pelo dano, condições essas que, por norma, estão escritas nos respectivos contratos.
No meio disto tudo o que acho mais grave foi o tempo para resolver o problema. 48h é muito tempo.
JCR,
não concordo com isso!
Entao os responsáveis de manutenção nem viram ou avisaram qual o maquina que tinha que ser reparada!
Aos medias não tem logica dar detalhes técnicos, mas aqui a nos sim.
Eu sempre que vem um técnico exterior fazer manutenção de um servidor ou trocar um compomente, não sai debaixo da minha visão, e sei sempre a todo o momento o que ele esta a fazer!
algo que não bate certo. e como diz o JJ, se a peça que mantinha a redundância foi trocada, então o serviço ia estar off, não bate certo isto!
aquelas maquinas em especial estão a cargo da empresa EMC, e é essa empresa que faz a manutenção dos equipamentos com supervisão das mesmas. Um dos storages avariou e o tecnico conseguiu avariar a maquina de redundancia. Mas assim que se apercebeu que se tinha enganado, ainda conseguiu estragar o resto na maquina principal.
Em relação ao tempo, além de repor os serviços, repor cerca de 700 teras de backup, demora…
Eu so não percebo como é que as duas maquinas ( principal e redundância ) estão no mesmo edifício
Continuo a dizer
“disaster recovery plan”
eu sei que sou um simples técnico mas ate aos meus clientes indico sempre para ter copias em sítios separados fisicamente.
Vou um exemplo, a Samsung a uns anos, ardeu a sala onde estavam as maquinas com os serviços a clientes. demorou duas horas a repor tudo.
Actualizar DNS na web!
Lamentar como uma empresa com a PT, deixa isto acontecer e ainda para mais não tem planos funcionais
Para um caso destes não se pode falar em Disaster Recovery, o que a PT deveria ter é Business Continuity Plan, são coisas bem destintas.
Deixo a minha solidariedade para com o Técnico, o risco é inerente á nossa profissão e so não erra quem não faz, ao que parece a solução agora é escalar o Técnico ao meio e coloca-lo no Desemprego.
Para os técnicos aqui neste post, ja não fizeram asneira??? Restart á maquina errada e por ai fora?
É sempre bom para agitar o mercado nas vendas, mais um exemplo para usar nas minhas reuniões comerciais 🙂
Abraço
A responsabilidade é da PT e não de um qualquer fornecedor.
Gente fraca atira com as responsabilidades para terceiros, há algum tempo que se percebeu que a PT é comandada por fraca gente.
Este triste episódio pôs a nú as fagilidades da PT, esperava-se muito mais da PT. Não chega fazer showoff a construir cubos.
Não fales do que não sabes e resume-te à tua ignorância.
E o que é que Vexa sabe acerca do que eu sei?
Fomos camaradas de caserna?
A boa educação cabe em todo o lado.
Aqui alguma informação mal dada.
Então se um “hardware” já estava avariado, era apenas o “hardware bom” que estava assegurava o funcionamento do serviço.
Se foi o “hardware bom” substituído por um novo, então o serviço deveria ter continuado a funcionar, mesmo que tivesse intermitências.
Agora, mesmo sendo falha humana, 48 horas para trocar (mesmo que por duas vezes) o “hardware”, é muito tempo.
Eu tenho sites, e em 10 anos, consigo contar pelos dedos das mãos as horas que tive os mesmos offline por motivos técnicos/actualizações. E pago substancialmente menos que essas empresas pagam a PT…
Essas empresas num fim-se-semana tiveram umas 5x mais tempo offline que eu tive em 10 anos.
Estou orgulhoso do serviço que utilizo (www.konexys.pt).
Deixa-me ser teu fã !
Se isso que dizes foi o que aconteceu… só importa saber de que forma foi efetuada a intervenção no hardware “bom”.
imaginando que era a controladora RAID a ser substituida… lá se ia a informação de todo o sistema…
… e não houve redundancia porque o outro nó já era o hardware “mau” (seja o que for)
JJ,
1º Não foram 48h para trocar o hardware, foram 48h para repor os serviços a todos os clientes.
2º Se achas que serviços de Cloud é só oferecer alojamento de sites, informa-te melhor.
Deixo-te uma pergunta, se o teu serviço, do qual te orgulhas, sofresse um ataque DDOS, qual era a capacidade de resposta?
1º Logicamente 48h não foi só para trocar o hardware, mas não deixa de ser muito tempo para ter um serviço todo em baixo. A PT, sendo a empresa que é, não deveria ter um backup pronto a entrar em funcionamento, para casos destes? Sei que ela tem estrutura mais que suficiente para contornar esta situação. Houve aqui uma falha maior do que simplesmente um técnico que se enganou a trocar um hardware.
2º Em nenhuma parte disse que serviços Cloud era só oferecer alojamento. Que observação sem sentido.
3º O que aqui aconteceu não foi nenhum ataque DDOS, por isso não faz nenhum sentido esse tipo de observação. Sem entramos por ai, pergunto eu qual é o tempo de resposta da PT, se para um problema no local esta off durante 48h, se for um problema externo demora quanto tempo!?
48h no total, uma parte do serviço estava resposta em 27h (20h a menos do que essas 48h que teimas em salientar)
Eu não teimo nada, apenas li o artigo:
“Vários sites de informação ficaram em baixo durante 48 horas. “
E testes após substituição do equipamento???
Parace que toda a gente “99%” das pessoas continua a confundir Cloud com Cluster! Se isso fosse uma cloud aserio não existia downtime. Contudo devem ser tido em conta os vários aspetos da cloud principalmente quando envolve empresas e organizações, pois uma cloud a serio não terá simplesmente servidores, storage na mesma localização física, com isto podendo até estar noutros países com diferentes legislações, etc…
Aconselho a leitura da documentação fornecida pela NIST a todos os interessados em saber mais…
um apagão!? não vi nada XD
como diz JJ, algo não bate certo!
Já no caso BES a culpa foi do contabilista !
ahahahahah de mais
Fazem o pessoal andar a fazer figuras tristes no meio de testes e mais testes e quando acontece algo a serio e simples afinal usamos o mais comum em nos humanos… a culpa e do outro e não minha. Como já se disse e onde esta o “disaster recovery plan” Isso faz-se para a Inspeção ver mas na realidade não funciona..Xiça
Isto cheira muito mal, quer dizer que um técnico da EMC substituiu alguma coisa no array e aquilo deixou de funcionar ? Acho estranho que deixem sair o técnico das instalações sem primeiro verificar que o trabalho ficou concluído , será que não havia ninguém competente para fazer isso ???? E parece-me muito estranho não costuma ser esse o procedimento da EMC mas ok …..
E pergunta-se… os sites/serviços deixaram de funcionar quando esse hardware avariou ou foi depois de terem sidos substituídos?
É que pela noticia fica a ideia que o serviço estava a funcionar e depois de terem feito uma substituição é que os serviços deixaram de funcionar.
Sim, foi depois da substituição. Ao substituir-se o que estava a funcionar foi-se a redundância
Então antes de se substituir copias os dados do “velho” para o “novo”, certo?
Então como é que foi-se a redundância, se o novo hardware deveria ter os mesmos dados que o velho?
Não seria necessário copiar pois assumia-se que o controlador bom mantinha o sistema a funcionar como se nada fosse. A partir do momento em que retiram o controlador bom, sendo que do outro lado estava o outro que não funcionava, a coisa borregou…
Grande parte do pessoal da PT escondem-se atrás do pessoal do outsourcing…eu não fui,foi ele!
É uma vergonha isto acontecer principalmente para o tubarão que a PT é!
“Grande parte do pessoal da PT escondem-se atrás do pessoal do outsourcing…eu não fui,foi ele!”
Sabes o que é outsourcing?
O que é isso de esconderem-se atrás do pessoal do outsourcing?
Queres um desenho?
Já agora, a culpa também foi do estagiário… 😀
Bom, vejam bem isto:
Sexta dia 13, 17 clientes de norte a sul do país meus que têm linhas ptprime de fibra ficaram das 15 às 18 sem dns da PT… só pingavam ip’s, mas dns, nada…
Sábado, dia 14, às 16 horas dois clientes meus que têm ambos servidor no Picoas e vpn’s dedicadas para lá deixaram de conseguir aceder… vpn checkpoint externa para ambos os servidores em baixo… o serviço só voltou domingo dia 15 pelas 17 horas…
Penso que não será preciso dizer muito mais para se adivinhar o que se passou na PT este fim de semana passado…
E os Globalphones que é um serviço que nunca pode falhar no lado da PT ????
Não ocorreu qualquer tipo de falhas nos servidores de comunicações (Serviços GlobalPhone) (Esses estão replicados pelos vários DC).
Já que é tão sábio, diga lá então o que se passou?
Os servidores de picoas foram todos migrados nesse fim de semana para a Covilhã lol
(As melhores explicações são normalmente as mais simples)
É só outsourcings depois dá nisto devia estar a ver o fb ao mesmo tempo que “trabalhava” …
Olha outro que não sabe o que é outsourcing…
Outsourcing é colocar um trolha a fazer o serviço de um técnico qualificado por uma tuta e meia.
Pois mas quem segurava a PT era o outsourcing com a bronca da PT mandaram mais de metade para casa agora quem segura aquilo são os internos que nunca fizeram nada na vida e agora viu se o trabalho. Por que é que os sindicatos andam berrar contra a venda da PT, já se sabe quando os franceses chegarem vão limpar casa.
Ora ai está!
Agora os que sabem como as coisas estão feitas vão/foram embora e ficaram os jardineiros.
Bom, presumo que os dns também…. mas que grande falta de responsabilidade… ainda por cima na Covilhã está tudo marado mesmo… enfim… coisas de hackers que são explicadas com milho para os pardais.
Esta situação não deixa de ser cómica vindo de onde vem.
Depois de ler posts aqui colocados por leitores a fazer especulações do que ocorreu pergunto-me se alguém aqui ouviu falar verdadeiramente da EMC2 e do verdadeiro core-business deles!
Vocês sabem o que é uma SAN? E para que serve?
Outra Coisa as SANs não usam RAID mas direct-attached storage (DAS) (O RAID vem depois) onde são criadas “ilhas” de discos SCSi cada uma dedicada a uma aplicação, e visível como uma série de “discos rígidos virtuais” (ou seja, LUN). Essencialmente, uma SAN consolida essas ilhas de armazenamento em conjunto, utilizando uma rede de alta velocidade.
Dito isto julgo que, o que deve ter falhado foi uma das controladoras de Fibra e a troca não foi bem feito o causou o downtime na PT.
E outra coisa, não esquecer o desgraçado que causou o downtime na já não deve de ter o emprego. Porque nestas situações estas empresas são implacáveis nos despedimentos por justa causa.
Obviamente, estavas à espera de quê? Palmadinhas nas costas?
Essa explicação não faz sentido.
É legítimo que até quem não esteja no meio, que aceite essa “explicação”. Quem trabalha nesta área concerteza sabe que uma migracao (desta enve9rgadura) não depende de uma pessoa, 😉
O amigo está a fazer uma grande confusão entre SAN e RAID. RAID é o acrónimo de Redundant Array of Inexpensive (nome original agora é Independent) Disks e engloba uma série de técnicas para através da criação de redundância proteger a informação em caso de falha dos discos físicos. O RAID 1 por exemplo emparelha dois discos em que os dados são escritos nos dois discos, o RAID 5 acrescenta informação de paridade aos dados de modo a que em caso de falha de um disco a informação nele contida pode ser reconstruída. Hoje em dia todos os sistemas de armazenamento usam os discos em RAID. A SAN é outra coisa, trata-se de uma rede que interliga os servidores ao sistema de storage, e é hoje em dia largamente utilizada em detrimento do DAS que foi utilizado antes do aparecimento das SAN com óbvias limitações dado que não permitia ligar mais servidores do que o número de portas do sistema de storage.
Depois de tudo, lamento muito o que o tal técnico deverá estar a sentir neste momento.
Poderá de facto ter cometido algum erro, nós seres humanos estamos sujeitos à pressão, e à perturbação do que nos rodeia e do que nos vai no íntimo, mas a dificuldade de resolução do problema deverá ter estado certamente relacionada com o setup que estava implementado.
Atribuir TODA a culpa a UMA SÓ PESSOA, que teve provavelmente o azar de lhe ser atribuída tal intervenção, na qual talvez qualquer outro técnico acabaria por cometer o mesmo erro, é super injusto.
Uma explicação transparente sem incriminar uma só pessoa, passaria por providenciar informações sobre o componente que sofreu a avaria, sobre o setup do qual o componente fazia parte, das limitações e riscos desse setup, e depois do que correu mal na reparação.
Talvez alguém da equipa técnica acabe por poder explicar isso, o que servirá de crítica construtiva para todos os que trabalham nessa área. Se aconteceu com a PT, poderia acontecer com qualquer outra empresa!
Em última análise, a responsabilidade recai na EMC. Ovelhas não são para mato… Entendes?
Existe aqui muita malta a comentar que não sabe o que se passou e manda postas de pescada sem saber o que está a dizer e mais não digo… A única coisa que posso afirmar é que a culpa foi efectivamente da EMC, tal como é afirmado pela PT.
E tu acabaste de fazer o mesmo. Esse comentário além de falso é triste!
É só engenheiros de qualidade em Portugal, ou não!
Boas,
Técnicamente não sei bem o que se passou, o que eu sei é que foram muito mais que 48h, nas primeiras horas, como estavam poucos sites em baixo o pessoal ignorou por completo pois não lhes apetecia trabalhar durante a noite. Pelo que percebi pela informação que me iam passando o sintoma inicial era a controladora de storage que estava a dar problemas, mas como já referi não lhes apeteceu trabalhar logo, o que levou a que tanto a controladora como a maior parte dos discos queimaram (não sei onde é que esteve o técnico da EMC, nem onde é que ele entrou nisto).
Tanto o técnico da EMC teve culpa como a pessoa que decidiu aguardar pela manhã a teve. A causa desta situação ainda está por apurar, mas possivelmente será devido a simples avaria e “deixa andar portugues”
Garantidamente NÂO FOI UM ATAQUE DE PIRATAS!!!!!
(eu fui um mero intermediário afastado desta situação)
Deixem de pagar 600 mensais ao técnicos…paguem um devido ordenado e talvez o técnico no futuro tenha mais atenção…
Técnico que se preze, faz o serviço em condições, se ganha pouco é uma chatice mas há que ter brio profissional.
Foi um herro umano… 😀
Uma pequena pergunta, para quem acha que o presumível técnico que fez a asneira deve ser despedido.
Esta apagão causou danos pessoais? Houve perca de vida humana? Algum sistema informático de saúde esteve em risco?
Se não, então tenham calma com o homem. So não erra quem não trabalha.
Quem trabalha muito… Erra muito.
Quem trabalha pouco… Erra pouco.
Quem não trabalh… Não erra!
E quem não erra… É promovido 😉
Boas,
Últimas informações indicam que o que se passou foi que de facto a controladora de storage avariou, logicamente passaram para a de backup e chamaram o técnico. Até aqui tudo bem, certo?
O problema é que o técnico chegou ao local e em vez de trocar a controladora principal, trocou a de backup (que estava a funcionar corretamente) por uma que estava avariada! (conclusão: nem principal nem backup) agora falta apurar se quem decidiu qual carta trocar foi o técnico ou se foi a PT…. Mas que o técnico trocou uma controladora boa por uma estragada, isso já se percebeu.
Tudo o que a PT deveria dizer era “estimamos que estivemos em face de um evento que acontece uma vez em cada x dias”.
Ou então publicar uma informação detalhada do funcionamento do sistema (aí umas 500 páginas).
Tudo o resto é completamente subjectivo e ultimamente inútil.
Como em tudo na vida, todos partem de alguns pressupostos que não parecem fazer sentido.
A questão do trolha ou recurso mal pago foram buscar onde?
Parece evidente que houve erro humano (quem nunca errou?), mas que o azar foi o erro humano ter incidido sobre um projecto mal desenhado, caso contrário ninguem estaria a falar nisto agora.
AL
Deixem se de tretas. È simples. Basta falar lingua de gente humana.
Avariou-se um disco num conjunto de 2. O palerma do tecnico substitui o que estava bom em vez do avariado.
Resultado: O disco com informação foi retirado, ficando apenas um disco novo e um disco avariado, logo não ha informação no disco.
Portanto foi preciso o tecnico do fabricante da storage colocar o anterior, mais um disco novo e reconstruir manualmente o indice e a garantir de novo a integridade da informação.
Regra geral estes tecnicos que vao ao local para este tipo de problemas sao subcontratados e não precisam de ser altamente especializados. Apenas quando é preciso reconstruir a integridade da informação de forma manual e não automatica como seria suposto ter acontecido, recorre-se normalmente aos tecnicos do fabricante com conhecimento mais avançado.
O que esperam mais da PT?
assumiu a responsabilidade a quem presta serviços,irá aplicar uma penalidade no fornecedor, emitiu um comunicado genérico sobre o problema. É uma empresa com elevado grau da confiança, é uma empresa com várias certificações ISO, é cotada em bolsa, está sujeita a SLA’s de 99,%. Só tem uma coisa má, uma publicidade péssima. Eu Confio 🙂
Caros,
Há mais exemplos públicos de situações de “desastre” que tenham originado downtime a serviços de empresas? Preciso desta info para um trabalho a realizar.