Вход | Регистрация
 
Информационные технологии :: Администрирование

Печальный опыт с RAID 10

Печальный опыт с RAID 10
Я
   Повелитель
 
30.06.21 - 14:44
Вчера смотрю на одном из наших серверов из RAID 10 пропал диск.
Диски HDD по 1Tb.
Послал сисадмина поменять.
Решили на горячую сделать.
До этого много раз так делали и всё было хорошо.
На RAID 10 лежала основная база и системные базы MS SQL.

В 11:36 админ поменял диск, но видимо случайно задел шлейф другого диска и из RAID 10 ушло сразу 2 диска и он поплыл.
MS SQL и базы перестали запускаться.
Диски вернули как были, даже тот что вышел из строя подхватился. Началось автоматическое перестроение RAID, которое длилось 2.5 часа.
Естественно в этом время база не работала, закрыли Торговый зал на технический перерыв.

После того как RAID восстановился, MS SQL отказался работать. Так как опыта с подобным восстановлением не было, то в итоге почитав мануалы и попробовав восстановить MS SQL, я его просто переустановил. В итогде на это ушло ещё 30 минут.
После переустановки MS SQL, база рабочая тоже отказалась работать.
Хорошо были бэкапы и логи транзакции. Последняя копия была на 11:20.
Поднял базу из бэкапов, потом по одному накатил каждый файл журнала транзакции, еще минут 30-40.
Закончили в 16:30
Итого сервер не работал 5 часов.

За 16 потерянных минут (с 11:20 до 11:36), не много документов было, все нашли и перезабили в 1с руками. Благо сбой был до обмена с центральным сервером, который по плану был бы в 11:40, а то был бы еще рассинхрон с центральной базой.

Вот так вот поменяли на горячую диски в RAID.
Выводы сделаны, в том числе и по расположению системных баз.
Для себя решили, что на горячую больше диски в RAID менять не будем. Лучше пусть 10 минут подождут.

Решил с вами поделится опытом.
   ДенисЧ
 
1 - 30.06.21 - 14:46
"админ ... задел шлейф другого диска"

А виноват рейд...
   polosov
 
2 - 30.06.21 - 14:47
(0) Чтобы такого не было давно стойки придумали и юниты со специальными контейнерами для винтов.
Обычный системник ведь у вас, да?
   Повелитель
 
3 - 30.06.21 - 14:47
(1) Да он с себя вины не снимает. Но случайно получилось. Он даже не отвалился, просто видимо отошёл.
   Повелитель
 
4 - 30.06.21 - 14:48
(2) Да обычный
   Arbuz
 
5 - 30.06.21 - 14:52
(2) Корзины для съёмных контейнеров есть и для "обычных системников".
   Chai Nic
 
6 - 30.06.21 - 14:53
На горячую диски менять можно, только если они в хотсвапной корзине.
   Chai Nic
 
7 - 30.06.21 - 14:54
+(5) Именно, с наступлением эпохи сата это давно не экзотика
   polosov
 
8 - 30.06.21 - 14:56
(5) На пару винтов?
   fisher
 
9 - 30.06.21 - 14:58
(0) Спасибо, что поделился. Техника безопасности пишется потерянными данными и временем.
   d4rkmesa
 
10 - 30.06.21 - 15:11
(0) Было дело, диски "уходили" из raid'а просто от того, что кто-то рядом прошел, а сервер лежал, грубо говоря, на полу на поддоне(еще не завезли стойку). Помню, настроил новый сервер и уехал в отпуск, а начальница звонит в 4 утра, и я совсем не в курсе, как выглядит перестроение raid. Ну, теперь знаете, как это выглядит на практике.
   d_monah
 
11 - 30.06.21 - 15:19
(9) Ну поделился и поделился.Если для вас 5 часов критично,примите меры.Стойка,замок,упс,юнит с резервом по БП,резерв по сети,удаленный архив и тд.Да дороже будет.ну а что вы хотели?Еще неплохо отделались
   XMMS
 
12 - 30.06.21 - 15:32
Я бы всё же смотрел в сторону резервирования сервера.
Чтобы было куда переткнуть ключи, накатить бэкап и запустить.
Иногда процесс восстановления может занять гораздо больше времени, чем "стоимость" потерянной с последнего бэкапа информации.
   fisher
 
13 - 30.06.21 - 15:53
(11) Товарищ уже принял гораздо более дешевые меры - не злоупотреблять горячей заменой, если не уверен в ее полной безопасности. И это хороший совет и хороший пример, что может пойти не так во время горячей замены.
   d_monah
 
14 - 30.06.21 - 16:48
(13) Что то пойти не так может пойти в 100500 случаях которые я знаю и еще столько, о чем я и подумать не мог.Я например никогда не в чем не уверен,только с определенной вероятностью.На месте ТС я бы и с железом,стоиками и прочим поработал+не злоупотреблял бы.Вот тогда норм.
   d_monah
 
15 - 30.06.21 - 16:49
(14) Ну по крайней мере он получил опыт))),больше не полезет,это бесценно)).Сам косячил в молодости))
   ptiz
 
16 - 30.06.21 - 16:57
Тоже сталкивались. Наш отважный админ решил поменять диск на горячую. Базе капут. 4 часа активной работы - ёк. Аукалось нам это еще год. Админ больше у нас не работает.
Горячая замена - только после бэкапа и выгона всех.
   Seriy_Volk
 
17 - 30.06.21 - 17:04
(0) мы все учились понемногу... В нынешних реалиях неаккуратный админ, зацепивший шлейф не самое большое зло. Личный опыт :
новый (полгода в работе) сервер, на нем RAID 10 из 10 SSD дисков. На диски гарантия пять лет + 4 диска в хотспаре, т.е. соломку вроде подстелили.
Итог - сдыхает один диск, массив начинает перестраиваться и в процессе ребилда сдыхает второй диск ИЗ ЭТОЙ же пары.
Ответ вендора - проблемная прошивка, меняем по гарантии. В конечном итоге поменяли по гарантии все дисски из этой партии, сдохли в течение года.
   Злопчинский
 
18 - 30.06.21 - 23:43
(3) я так случайно тестовую мусорную базу потер. а там бухи пару месяцев какой-то учет восстанавливали...
   d_monah
 
19 - 01.07.21 - 00:03
(18) Тер боевую,истинно веруя что это тест.Заодно научился бэкапы делать регулярно и перед каждыми изменениями
   acanta
 
20 - 01.07.21 - 00:11
Перемещала рабочую базу в соседний каталог, в процессе работы неловким движением. Никто не заметил. А затем обратно (когда нашла куда делась с винта боевая база).
   Злопчинский
 
21 - 01.07.21 - 00:30
во времена ЕС1840 набрал
xdel, рука пошла на ввод, увидел/сообразил что стою не в том каталоге но уже поздно.. потерся каталог со всеми подкаталогами. 4Мб из 20МБ диска ушли в никуда. Все что нажито непосильным трудом, научные программы, перетазенное с БЭСМ5 с FOREX и переколдирвоание в watcom-ий фортран кучу прог и прочая и прочая...  Но тогда было легче. было понятно что какая программа делает, где что сидит. Короче - восстановил все.
   Почему 1С
 
22 - 01.07.21 - 07:37
Не знаю что сделал наш админ, но у нас при выходе из строя одного диска из RAID1, после замены диска оказалась свободное место на весь объем диска. Я так понял он каким то образом умудрился новый диск сделать целевым.
   Chai Nic
 
23 - 01.07.21 - 08:00
(22) Когда-то в начале двухтысячных я так уронил сервер. Вместо "rebuild" на новом диске в raid5 выбрал "take online". Хорошо бэкапы были)
   Kongo2019
 
24 - 01.07.21 - 08:03
(0)Случайно задел шлейф другого диска -  тут не понял, в корзине нет шлейфов же? Там жесткая плата с разъемами.
   lodger
 
25 - 01.07.21 - 08:21
(24) RAID10 - это отсылка к режиму работы контроллера. и ничего не было сразу сказано о конструкции.
по факту - системный блок с паутиной проводов, как в любом домашнем компе ленивого айтишника.
   d_monah
 
26 - 01.07.21 - 09:19
(25) Читая "на горячую" можно предположить что там корзины,ХотСвап))),но можно и по другому)).Вы видели неленивого айтишника?Вам повезло,они в Красной книге.Если здоровались за руку,руки не мыть!!!Детям и внукам будете рассказывать
   ДенисЧ
 
27 - 01.07.21 - 09:26
(26) У неленивого руки в пыли. Поэтому руки мыть обязательно
   d_monah
 
28 - 01.07.21 - 09:30
(27) Да и черт с этой пылью,больше грязи-шире морда.Зато это НАСТОЯЩИЙ НЕЛЕНИВЫЙ АЙТИШНИК!


Список тем форума
 
ВНИМАНИЕ! Если вы потеряли окно ввода сообщения, нажмите Ctrl-F5 или Ctrl-R или кнопку "Обновить" в браузере.