Расшифровка smart жесткого диска. Проверка smart здоровья жесткого диска. Программы для S.M.A.R.T

Сегодня, хотелось бы чуточку подробнее поговорить о вскользь упомянутой в предыдущей статье о критериях выбора винчестера технологии SMART, а также выяснить вопрос о появлении плохих секторов при проверке поверхности специальными программами и исчерпании резервной поверхности для их переназначения - вопросу, поднятому на из прошлой статьи.

Для начала как всегда краткий исторический экскурс. Надежность жесткого диска (и любого устройства хранения в самом общем случае) всегда придается огромное значение. И дело отнюдь не в его стоимости, а в ценности той информации, которую он уносит с собой в мир иной, уходя из жизни сам, и в потерях прибыли, связанных с простоями при выходе из строя винчестеров, если речь идет о бизнес-пользователях, даже в том случае, если информация осталась. И вполне естественно, что о таких неприятных моментах хочется знать заранее. Даже обычные рассуждения на бытовом уровне подсказывают, что наблюдение за состоянием прибора в работе, может подсказать такие моменты. Осталось только каким-то образом реализовать это наблюдение в винчестере.

Впервые над этой задачей задумались инженеры голубого гиганта (IBM то бишь). И в 1995 году они предложили технологию, отслеживающую несколько критически важных параметров накопителя, и делающую попытки на основании собранных данных предсказать выход его из строя - Predictive Failure Analysis (PFA). Идею подхватила Compaq, которая чуть позже создала свою технологию - IntelliSafe. В разработке Compaq также поучаствовали Seagate, Quantum и Conner. Созданная ими технология также отслеживала ряд рабочих характеристик диска, сравнивала их с допустимым значением и рапортовала хост-системе в случае наличия опасности. Это был огромный шаг вперед если и не в повышении надежности винчестеров, то хотя бы в уменьшении риска потери информации при их использовании. Первые попытки оказались удачными, и показали необходимость дальнейшего развития технологии. Уже в объединении всех крупных производителей жестких дисков появилась технология S.M.A.R.T (Self Monitoring Analysing and Reporting Technology), базирующаяся на технологиях IntelliSafe и PFA (кстати говоря, PFA существует и поныне, как набор технологий для наблюдения и анализа за различными подсистемами серверов IBM, в том числе и дисковой подсистемой, причем наблюдение за последней базируется именно на технологии SMART).

Итак, SMART - это технология внутренней оценки состояния диска, и механизм предсказания возможного выхода из строя жесткого диска. Важно отметить то, что технология в принципе не решает возникающих проблем (основные из них показаны на рисунке чуть ниже), она способна лишь предупредить об уже возникшей проблеме либо об ожидающейся в ближайшем времени.

При этом нужно также сказать, что технология не в состоянии предсказать абсолютно все возможные проблемы и это логично: выход электроники в результате скачка напряжения, порча головок и поверхности в результате удара и т.п. никакая технология предсказать не в силах. Предсказуемы лишь те проблемы, которые связаны с постепенным ухудшением каких-либо характеристик, равномерной деградацией каких либо компонент.

Этапы развития технологии

В своем развитии технология SMART прошла три этапа. В первом поколении было реализовано наблюдение небольшого числа параметров. Никаких самостоятельных действий накопителя не предусматривалось. Запуск осуществлялся только командами по интерфейсу. Спецификации описывающей стандарт полностью нет, и, следовательно, не было и нет и четкого предначертания, о том, какие именно параметры надлежит контролировать. Более того, их определение и определение допустимого уровня их снижения целиком и полностью предоставлялся производителям винчестеров (что естественно в силу того, что производителю виднее что именно надлежит контролировать данном его винчестере, ибо все винчестеры слишком различны). И программное обеспечение, по этой причине, написанное, как правило, сторонними фирмами, не было универсальным, и могло ошибочно рапортовать о предстоящем сбое (путаница возникала из-за того, что под одним и тем же идентификатором различные производители хранили значения различных параметров). Имело место большое число жалоб на то, что число случаев обнаружения пред сбойного состояния чрезвычайно мало (особенности человеческой природы: получать хочется все и сразу, жаловаться на внезапные отказы дисков до внедрения SAMRT в голову как-то никому не приходило). Ситуация усугубилась еще и тем, что в большинстве случаев не были выполнены минимально необходимые требования для функционирования SMART (об этом поговорим позже). Статистика говорит о том, что число предсказываемых сбоев было менее 20%. Технология на этом этапе была далека от совершенства, но являлась революционным шагом вперед.

О втором этапе развития SMART - SMART II известно также не много. В основном наблюдались те же проблемы, что и с первой. Нововведениями являлись возможность фоновой проверки поверхности, выполняемая диском в автоматическом режиме при простоях и ведение журналов ошибок, расширился список контролируемых параметров (снова же в зависимости от модели и производителя). Статистика говорит о том, что число предсказываемых сбоев достигло 50%.

Современный этап представлен технологией SMART III. На ней остановимся подробней, попытаемся разобраться в общих чертах как она работает, что и зачем в ней нужно.

Нам уже известно, что SMART производит наблюдение за основными характеристиками накопителя. Эти параметры называются атрибутами. Необходимые к мониторингу параметры определяются производителем. Каждый атрибут имеет какую-то величину - Value. Обычно изменяется в диапазоне от 0 до 100 (хотя может быть в диапазоне до 200 или до 255), ее величина - это надежность конкретного атрибута относительно некоторого его эталонного значения (определяется производителем). Высокое значение говорит об отсутствии изменений данного параметра или, в зависимости от значения, его медленном ухудшении. Низкое значение говорит о быстрой деградации или о возможном скором сбое, т.е. чем выше значение Value атрибута, тем лучше. Некоторыми программами мониторинга выводится значение Raw или Raw Value - это значение атрибута во внутреннем формате (который так же различен у дисков разных моделей и разных производителей), в том, в котором он хранится в накопителе. Для простого пользователя он малоинформативен, больший интерес представляет посчитанное из него значение Value. Для каждого атрибута производителем определяется минимальное возможное значение, при котором гарантируется безотказная работа накопителя - Threshold. При значении атрибута ниже величины Threshold очень вероятен сбой в работе или полный отказ. Осталось только добавить, что атрибуты бывают критически важными и некритически. Выход критически важного параметра за пределы Threshold фактический означает выход из строя, выход за переделы допустимых значений некритически важного параметра свидетельствует о наличии проблемы, но диск может сохранять свою работоспособность (хотя, возможно, с некоторым ухудшением некоторых характеристик: производительности например).

К наиболее часто наблюдаемым критически важным характеристикам относятся: Raw Read Error Rate - частота ошибок при чтении данных с диска, происхождение которых обусловлено аппаратной частью диска.

Spin Up Time - время раскрутки пакета дисков из состояния покоя до рабочей скорости. При расчете нормализованного значения (Value) практическое время сравнивается с некоторой эталонной величиной, установленной на заводе. Не ухудшающееся немаксимальное значение при Spin Up Retry Count Value = max (Raw равном 0) не говорит ни о чем плохом. Отличие времени от эталонного может быть вызвано рядом причин, например блок питания подкачал.

Spin Up Retry Count - число повторных попыток раскрутки дисков до рабочей скорости, в случае если первая попытка была неудачной. Ненулевое значение Raw (соответственно немаксимальное Value) свидетельствует о проблемах в механической части накопителя.

Seek Error Rate - частота ошибок при позиционировании блока головок. Высокое значение Raw свидетельствует о наличии проблем, которыми могут являться повреждение сервометок, чрезмерное термическое расширение дисков, механические проблемы в блоке позиционирования и др. Постоянное высокое значение Value говорит о том, что все хорошо.

Reallocated Sector Count - число операций переназначения секторов. SMART в современных способен произвести анализ сектора на стабильность работы "на лету" и в случае признания его сбойным произвести его переназначение. Ниже мы поговорим об этом подробнее.

Из некритических, так сказать информационных атрибутов, обычно производят наблюдение за следующими:

  • Start/Stop Count - полное число запусков/остановов шпинделя. Гарантировано мотор диска способен перенести лишь определенное число включений/выключений. Это значение выбирается в качестве Treshold. Первые модели дисков со скоростью вращения 7200 оборотов/мин имели ненадежный двигатель, могли перенести лишь небольшое их число и быстро выходили из строя.
  • Power On Hours - число часов проведенных во включенном состоянии. В качестве порогового значения для него выбирается паспортное время наработки на отказ (MBTF). Принимая во внимание обычно совершенно невероятные величины MBTF, маловероятно, что параметр достигнет когда либо критического порога. Но даже в этом случае выход из строя диска совершенно не обязателен.
  • Drive Power Cycle Count - количество полных циклов включения-выключения диска. По этому и предыдущему атрибуту можно оценить, например, сколько использовался диск до покупки.
  • Temperatue - просто и понятно. Здесь хранятся показания встроенного термодатчика. Температура имеет огромное влияние на срок службы диска (даже если она находится в допустимых пределах).
  • Current Pending Sector Count - здесь храниться число секторов, являющихся кандидатами на замену. Они не были еще определенны как плохие, но считывание их отличается от чтения стабильного сектора, так называемые подозрительные или нестабильные сектора.
  • Uncorrectable Sector Count - число ошибок при обращении к сектору, которые не были скорректированы. Возможными причинами возникновения могут быть сбои механики или порча поверхности.
  • UDMA CRC Error Rate - число ошибок, возникающих при передаче данных по внешнему интерфейсу. Могут быть вызваны некачественными кабелями, нештатными режимами работы.
  • Write Error Rate - показывает частоту ошибок происходящих при записи на диск. Может служить показателем качества поверхности и механики накопителя.

    Все происходящие ошибки и изменения параметров фиксируются в журналах SMART. Эта возможность появилась уже в SMART II. Все параметры журналов - назначение, размер, их число определяются изготовителем винчестера. Нас с вами в настоящий момент интересует только факт их наличия. Без подробностей. Информация хранящаяся в журналах используется для анализа состояния и составления прогнозов.

    Если не вдаваться в подробности, то работа SMART проста - при работе накопителя просто отслеживаются все возникающие ошибки и подозрительные явления, которые находят отражение в соответствующих атрибутах. Кроме того начиная так же со SMART II у многих накопителей появились функции самодиагностики. Запуск тестов SMART возможен в двух режимах, off-line - тест выполняется фактически в фоновом режиме, так как накопитель в любое время готов принять и выполнить команду, и монопольном при котором при поступлении команды, выполнение теста завершается.

    Документировано существует три типа тестов самодиагностики: фоновый сбор данных (Off-line collection), сокращенный тест (Short Self-test), расширенный тест (Extended Self-test). Два последних способны выполняться как в фоновом, так и в монопольном режимах. Набор тестов в них входящих не стандартизирован.

    Продолжительность их выполнения может быть от секунд до минут и часов. Если вы вдруг не обращаетесь к диску, а он при этом издатет звуки как и при рабочей нагрузке - он просто похоже занимается самоанализом. Все данные собранне в результате таких тестов будут также сохранены в журналах и аттрибутах.

    Ох уж эти плохие сектора...

    Теперь вернемся к вопросу бэд-секторов, с которых все началось. В SMART III появилась функция, позволяющая прозрачно для пользователя переназначать BAD сектора. Работает механизм достаточно просто, при неустойчивом чтении сектора, или же ошибки его чтения, SMART заносит его в список нестабильных и увеличит их счетчик (Current Pending Sector Count). Если при повторном обращении сектор будет прочитан без проблем, он будет выброшен из этого списка. Если же нет, то при предоставившейся возможности - при отсутствии обращений к диску, диск начнет самостоятельную проверку поверхности, в первую очередь подозрительных секторов. Если сектор будет признан сбойным, то он будет переназначен на сектор из резервной поверхности (соответственно RSC увеличиться). Такое фоновое переназначение приводит к тому, что на современных винчестерах сбойные секторы практически никогда не видны при проверке поверхности сервисными программами. В тоже время, при большом числе плохих секторов их переназначение не может происходить до бесконечности. Первый ограничитель очевиден - это объем резервной поверхности. Именно этот случай я имел ввиду. Второй не столь очевиден - дело в том, что у современных винчестеров есть два дефект-листа P-list (Primary, заводской) и G-list (Growth, формируется непосредственно во время эксплуатации). И при большом числе переназначений может оказаться так, что в G-list не оказывается места для записи о новом переназначении. Эта ситуация может быть выявлена по высокому показателю переназначенных секторов в SMART. В этом случае еще не все потеряно, но это выходит за рамки данной статьи.

    Итак, используя данные SMART даже не нося диск в мастерскую можно довольно точно сказать, что с ним происходит. Существуют различные технологии-надстройки над SMART, которые позволяют определить состояние диска еще более точно и практически достоверно причину его неисправности. Об этих технологиях мы поговорим в отдельной статье.

    Нужно знать, что приобретения накопителя со SMART не достаточно, для того, что бы быть в курсе всех происходящих с диском проблем. Диск, конечно, может следить за своим состоянием и без посторонней помощи, но он не сможет сам предупредить в случае приближающейся опасности. Нужно что-то, что позволит на основании данных SMART выдать предупреждение. (обычная цепочка приведена на рисунке чуть ниже).

    Как вариант возможен BIOS, который при загрузке при включенной соответствующей опции проверяет состояние SMART накопителей. А если же вам хочется вести постоянный контроль за состоянием диска, необходимо использовать какую-то программу мониторинга. Тогда вы сможете видеть информацию в подробном и удобном виде.



    SmartMonitor из HDD Speed работающий под DOS


    SIGuiardian, работающая из Windows

    Об этих программах мы также поговорим в отдельной статье. Именно это я имел ввиду, когда говорил о том, что по началу не выполнялись необходимые требования при эксплуатации жестких дисков с SMART .

    Технологии хранения информации:

    Технология NoiseGuard
    Mагнито-оптические технологии
  • При выводе параметров S.M.A.R.T значение Value должно превышать Threshold (критическое значение параметра), данное значение должно быть высоким.

    Зеленый маркер атрибута свидетельствует о том, что параметр атрибута соответствует нормальному.

    Желтый маркер свидетельствует о небольшом расхождении.

    Красный - это сильные расхождения, с таким параметром жесткий диск может выйти из строя в любую минуту, хранение на нем данных небезопасно.

    Raw Read Error Rate - этот атрибут отображает частоту ошибок при чтении с диска.

    Spin Up Time - атрибут раскрутки диска до рабочего состояния, некачественный блок питания может влиять на разницу с эталонным значением.

    Start/Stop Count - количество запусков и остановок жесткого диска.

    Reallocated Sector Count - счетчик перераспределенных секторов, показывающий количество резервных секторов способных заменить сбойные, наиболее значимый для работоспособности винчестера параметр. При обнаружении системой винчестера ошибки чтения/записи, сектор перезаписывается в резервную область, этот параметр наиболее четко показывает работоспособность вашего винчестера и самое главное исправить этот атрибут нельзя никакими программами. При критически низком показателе этого параметра, стоит задуматься о смене жесткого диска.

    Seek Error Rate - значение частоты ошибок при позиционировании головок, сообщает о перегреве винчестера или неустойчивом положении в корзине, решение возможно в более надежном закреплении жесткого диска.

    Power-on Hours Count - атрибут отображающий количество часов во включенном состоянии.

    Spin Retry Count - количество повторов раскрутки диска при неудачной предыдущей.

    Recalibration Retries - этот атрибут указывает какое количество повторений калибровки было совершено, при условии, что первая попытка была неудачной. Указывает на проблемы с механической чатстью жесткого диска.

    Device Power Cycle Count - количество полных циклов включения/выключения устройства.

    Emergency Retract Count - атрибут парковки головок при чрезвычайных ситуациях, пропажа питание или сильное его понижение, бывает при плохом контакте разъема питания или глюках платы HDD.

    Load/unload Cycle Count - количество циклов вывода головок в рабочее положение.

    HDA Temperature - температура жесткого диска.

    Reallocation Event Count - счетчик операций ремаппинга, показывает количество попыток перенесения сбоящих секторов в резервную область.

    Current Pending Errors Count - счетчик секторов считывание которых затруднено, к данным секторам относятся сектора которые не удалось прочитать с первого раза так называемые бэд-блоки, исправить возможно принудительной записью в них информации и ее прочтением, эту процедуру можно совершить программой HddScan.

    Uncorrectable Errors Count - счетчик некорректируемых ошибок, указывает на дефекты поверхности жесткого диска.

    UltraDMA CRC Errors - ошибки внешнего интерфейса, возникающие при некачественном шлейфе SATA.

    Multi Zone Error Rate - частота появления ошибок при записи данных.

        Современные жесткие диски довольно “умные” устройства и, кроме основных присущих им как устройствам хранения и обработки данных свойств, поддерживают технологию самотестирования, анализа состояния, и накопления статистических данных об ухудшении собственных характеристик S.M.A.R.T. (S elf-M onitoring A nalysis a nd R eporting T echnology). Основы S.M.A.R.T. были разработаны в 1995 г. совместными усилиями ведущих производителями жестких дисков (HDD). В последующие годы стандарты S.M.A.R.T дорабатывались в соответствии с изменениями технологий и оборудования (SMART II и SMART III) и продолжают совершенствоваться в настоящее время.

        Жесткий диск, начиная с момента его изготовления, постоянно отслеживает определенные параметры своего состояния и отражает их в специальных характеристиках - атрибутах (Attribute), сохраняющихся в постоянном запоминающем устройстве, как правило, в специально выделенной части дисковой поверхности, доступной только внутренней микропрограмме накопителя - служебной зоне . Данные атрибутов могут быть считаны, в соответствии со спецификацией ATA (AT A ttachment) по командам поддержки SMART (SMART READ DATA и еще более десятка команд), которые передаются в накопитель специальным программным обеспечением, как например, утилитами от производителей оборудования или универсальными программами тестирования и мониторинга состояния HDD (udisks, smartctl, GSmartControl, gnome-disks и т.п.). Современные стандарты ATA включают в себя поддержку протокола SCT (SMART Command Transport), обеспечивающего считывание журналов статистики устройства. Журнал статистики устройства - это доступный только для чтения журнал SMART, передаваемый накопителем при получении команд READ LOG EXT, READ LOG DMA EXT или SMART READ LOG.

        Атрибут представляет собой характеристику определенного состояния жесткого диска, которая изменяется в процессе эксплуатации, принимая числовое значение от максимального, установленного в момент изготовления данного устройства, до минимального, при достижении которого, работоспособность накопителя не гарантируется. Все атрибуты идентифицируются своим цифровым номером, большинство из которых одинаково интерпретируется жесткими дисками разных моделей. Некоторые из них могут использоваться только конкретным производителем оборудования, и поддерживаться отдельными моделями накопителей. Так, например, атрибут с идентификатором 7 , характеризующий количество ошибок установки головок на требуемую дорожку поверхности дискаSeek_Error_Rate не имеет смысла для твердотельных дисков (SSD) и, соответственно, не поддерживается ими, а атрибут с идентификатором 9 ,характеризующий суммарное время работы накопителя за весь срок эксплуатации и обозначаемый как Power_On_Hours ,поддерживается как SSD, так и традиционными HDD.

        Атрибуты состоят из нескольких полей, (наиболее часто обозначаемых как Val, Worst, Tresh, RAW ), каждое из которых является определенным показателем, характеризующим техническое состояние накопителя на данный момент времени. Программы считывания S.M.A.R.T. выводят содержимое атрибутов, как правило, в виде нескольких колонок:

  • ID# - числовой идентификатор атрибута
  • Attribute - название атрибута
  • Flags - флаги атрибутов, задаваемые производителем HDD. Характеризуют тип атрибута (большинство программ интерпретируют флаги в виде символов k,c,r,s,o,p или аббревиатур, например, EC – Event Count, счетчик событий).

    Pre-Failure (PF, 01h) - при достижении порогового значения данного типа атрибутов диск требует замены. Иногда данный бит флагов обозначают как Life Critical (CR) или Pre-Failure warranty (PW)
    O nline test (OC, 02h)– атрибут обновляет значение при выполнении off-line/on-line встроенных тестов SMART;
    P erfomance R elated (PE или PR , 04h)– атрибут характеризует производительность;
    E rror R ate (ER , 08h)– атрибут отражает счетчики ошибок оборудования;
    E vent C ounts (EC, 10h) – атрибут представляет собой счетчик событий;
    S elf P reserving (SP, 20h) – самосохраняющися атрибут;
    Некоторые из программ могут интерпретировать флаги в виде текстовых описаний, близких по смыслу к рассмотренным выше. Один атрибут может иметь несколько установленных в единицу значений флагов, например, атрибут с идентификатором 05 отражающий количество переназначенных из-за сбоев секторов из резервной области, имеет установленные флаги SP+EC+OC – самосохраняющийся, счетчик событий, обновляется при автономном и интерактивном режиме накопителя.

  • Value - текущее значение атрибута
  • Threshold - минимальное пороговое значения атрибута
  • Worst - самое худшее значение атрибута за все время работы накопителя
  • Raw - абсолютное значение атрибута
  • Type - некоторые из программ в данном необязательном поле отображают информацию из флажков атрибутов или признаки их критичности (Critical или Pre-Fail , отражающих ухудшение характеристик оборудования, и Old-age для атрибутов, отражающих выработку ресурса);

        Для анализа состояния накопителя, пожалуй самым важным значением атрибута является Value - условное число (обычно от 0 до 100 или до 253), заданное производителем. Значение Value изначально установлено на максимум при производстве накопителя и уменьшается в случае ухудшения его параметров. Для каждого атрибута существует пороговое значение, при достижения которого, производитель не гарантирует его работоспособность - поле Threshold . Если значение Value приближается или становится меньше значения Threshold , - накопитель пора менять.

    Перечень атрибутов и их значения жестко не стандартизированы и некоторые из них могут определяться изготовителем накопителя, но основная часть интерпретируются одинаково. Например, атрибут с идентификатором 05 (Reallocated sector count ) будет характеризовать число забракованных и переназначенных из резервной области секторов диска, как для устройств производства компании Seagate Technology, так и для устройств производства Western Digital . Набор поддерживаемых атрибутов зависит от модели накопителя и может значительно отличаться по составу для разных моделей.

        Наиболее распространенным программным средством для получения данных S.M.A.R.T в среде Linux, является утилита smartctl из комплекта smartmontools , как правило, входящего в состав устанавливаемого по умолчанию программного обеспечения любого дистрибутива. При необходимости, обновить версию, а также скачать документацию на английском языке можно на сайте проекта smartmontools.org .

    Для работы с утилитой smartctl требуются права суперпользователя root .

    Формат командной строки smartctl :

    smartctl параметры устройство

    Примеры использования smartctl

    smartctl –help или smartctl --usage - отобразить подсказку об использовании команды.

    Параметры smartctl :

    -V, --version, --copyright, --license - отобразить версию, информацию копирайта и лицензии.

    -i, --info - отобразить идентификационную информацию для устройства.

    -g NAME, --get=NAME - отобразить параметры настроек диска (all, aam, apm, lookahead, security, wcache, rcache, wcreorder)

    -a, --all - отобразить все данные SMART указанного диска.

    -x, --xall - отобразить все технические данные для указанного диска.

    --scan - выполнить поиск дисковых устройств.

    -q TYPE, --quietmode=TYPE установить режим детализации вывода для smartctl (errorsonly, silent, noserial)

    -d TYPE, --device=TYPE - установить тип устройства (ata, scsi, sat[,auto][,N][+TYPE], usbcypress[,X], usbjmicron[,p][,x][,N], usbsunplus, marvell, areca,N/E, 3ware,N, hpt,L/M/N, megaraid,N, cciss,N, auto, test) Обычно установка типа устройства требуется в тех случаях, когда утилита smartctl не может определить его автоматически.

    -b TYPE, --badsum=TYPE - задать реакцию на обнаружение ошибок контрольных сумм (warn, exit, ignore)

    -r TYPE, --report=TYPE - опция предназначена для разработчиков smartmontools и позволяет получить детализированную информацию при выполнении транзакций функции управления устройствами ввода/вывода ioctl (ioctl, ataioctl, scsiioctl и уровень отладки). Подробности - man smartctl

    -n MODE, --nocheck=MODE - режим запрета на выполнение тестов для режимов энергосбережения (never, sleep, standby, idle). Обычно используется для предотвращения запуска шпиндельного двигателя по команде smartctl.

    -s VALUE, --smart=VALUE - отключение или включение SMART (on/off)

    -o VALUE, --offlineauto=VALUE - запрет или разрешение автоматического выполнения тестов в неинтерактивном режиме (в режиме простоя накопителя), принимаемые значения - on/off

    -S VALUE, --saveauto=VALUE автосохранение атрибутов (on/off)

    -s NAME[,VALUE], --set=NAME[,VALUE] - запрет/разрешение параметров оборудования накопителя (aam,, apm,, lookahead,, security-freeze, standby,, wcache,, rcache,, wcreorder,)

    -H, --health - отобразить состояние накопителя (SMART health status)

    -c, --capabilities - отобразить информацию о поддерживаемых возможностях SMART указанного жесткого диска.

    -A, --attributes - отобразить атрибуты SMART

    -f FORMAT, --format=FORMAT - задать формат отображаемых атрибутов SMART (old, brief, hex[,id|val]). В основном, влияет на формат отображаемых значений идентификаторов атрибутов и формат отображения их флагов:
    old - идентификаторы атрибутов выводятся в десятичной системе счисления, значения флагов отображаются в шестнадцатеричной и интерпретируются в виде текста.
    hex - то же, что и в предыдущем случае, но идентификаторы атрибутов отображаются в шестнадцатеричной системе счисления.
    brief - компактный вывод, идентификаторы отображаются в десятичной системе счисления, флаги отображаются в виде символов с расшифровкой в нижней части таблицы:
    ID# ATTRIBUTE_NAME FLAGS VALUE WORST THRESH FAIL RAW_VALUE 1 Raw_Read_Error_Rate POSR-- 114 100 006 - 78309029 . . . . . . 254 Free_Fall_Sensor -O--CK 100 100 000 - 0 ||||||_ K auto-keep |||||__ C event count ||||___ R error rate |||____ S speed/performance ||_____ O updated online |______ P prefailure warning

    -l TYPE, --log=TYPE - отобразить указанный журнал устройства (selftest, selective, directory[,g|s], xerror[,N][,error], xselftest[,N][,selftest],background, sasphy[,reset], sataphy[,reset], scttemp, scttempint,N[,p], scterc[,N,M], devstat[,N], ssd, gplog,N[,RANGE], smartlog,N[,RANGE]

    -v N,OPTION , --vendorattribute=N,OPTION - установить параметр для определенного производителем атрибута с идентификатором N

    -F TYPE, --firmwarebug=TYPE - адаптация программы для учета ошибок в аппаратной прошивке накопителя (none, nologdir, samsung, samsung2, samsung3, xerrorlba, swapid)

    -P TYPE, --presets=TYPE - предустановки параметров диска. По умолчанию, обнаружив информацию о накопителе в своей базе, утилита smartctl , использует набор параметров, доступный для данной модели. Опция use - использовать предустановки для данного накопителя, ignore - не использовать, show - отобразить предустановки для данного диска, showall - отобразить предустановки для указанной модели. Примеры:

    smartctl –P ignore /dev/hdb - игнорировать предустановки для диска /dev/hdb;
    smartctl –P show /dev/sdb - отобразить предустановки для указанного диска;
    smartctl –P showall ‘ST9250315AS’ - - отобразить предустановки для указанной модели диска - ST9250315AS;
    smartctl –P showall ‘ST3750515AS’ ‘SD15’ - отобразить предустановки для указанной модели диска ST3750515AS с прошивкой SD15;

    -B [+]FILE, --drivedb=[+]FILE - прочитать и изменить базу данных моделей дисков из файла FILE. Знак “+” перед именем файла, означает добавление новых записей в базу, перед уже существующими.

    По умолчанию, база данных хранится в файле /usr/share/smartmontools/drivedb.h

    DEVICE SELF-TEST OPTIONS =====

    -t TEST, --test=TEST - запустить выполнение теста TEST Run test. TEST: offline, short, long, conveyance, force, vendor,N, select,M-N, pending,N, afterselect,

    -C, --captive - выполнение тестов в режиме захвата накопителя. Используется совместно с параметром -t для тестов не в режиме offline . Использование данного параметра может вызвать занятость устройства на все время выполнения теста и привести к нарушению работы системы и потере данных. Не стоит использовать опцию -c для выполнения тестов накопителей с монтированными разделами. Для SCSI устройств данная опция означает выполнение встроенных тестов в режиме "Foreground mode" .

    -X, --abort - принудительно завершить тест, выполняющийся без ключа --captive .

    Примеры использования smartctrl.

    smartctl --info /dev/sdb - отобразить идентификационную информацию для устройства /dev/sdb. Пример вывода команды:

    === START OF INFORMATION SECTION === Device Model: ST9500620NS Serial Number: 9XF0AW8T Firmware Version: SN01 User Capacity: 500,107,862,016 bytes Device is: Not in smartctl database ATA Version is: 8 ATA Standard is: ATA-8-ACS revision 4 Local Time is: Tue Oct 28 15:05:31 2014 MSK SMART support is: Available - device has SMART capability. SMART support is: Enabled

    smartctl --all /dev/hdа - отобразить все данные SMART для устройства /dev/hda

    Пример отображаемых данных:

    === START OF INFORMATION SECTION === Device Model: ST9500620NS Serial Number: 9XF0AW8T Firmware Version: SN01 User Capacity: 500,107,862,016 bytes Device is: Not in smartctl database ATA Version is: 8 ATA Standard is: ATA-8-ACS revision 4 Local Time is: Tue Oct 28 15:05:45 2014 MSK SMART support is: Available - device has SMART capability. SMART support is: Enabled === START OF READ SMART DATA SECTION === SMART overall-health self-assessment test result: PASSED General SMART Values: Offline data collection status: (0x82) Offline data collection activity was completed without error. Auto Offline Data Collection: Enabled. Self-test execution status: (0) The previous self-test routine completed without error or no self-test has ever been run. Total time to complete Offline data collection: (634) seconds. Offline data collection capabilities: (0x7b) SMART execute Offline immediate. Auto Offline data collection on/off support. Suspend Offline collection upon new command. Offline surface scan supported. Self-test supported. Conveyance Self-test supported. Selective Self-test supported. SMART capabilities: (0x0003) Saves SMART data before entering power-saving mode. Supports SMART auto save timer. Error logging capability: (0x01) Error logging supported. General Purpose Logging supported. Short self-test routine recommended polling time: (1) minutes. Extended self-test routine recommended polling time: (102) minutes. Conveyance self-test routine recommended polling time: (2) minutes. SCT capabilities: (0x10bd) SCT Status supported. SCT Feature Control supported. SCT Data Table supported. SMART Attributes Data Structure revision number: 10 Vendor Specific SMART Attributes with Thresholds: ID# ATTRIBUTE_NAME FLAG VALUE WORST THRESH TYPE UPDATED WHEN_FAILED RAW_VALUE 1 Raw_Read_Error_Rate 0x000f 082 064 044 Pre-fail Always - 190274202 3 Spin_Up_Time 0x0003 096 096 000 Pre-fail Always - 0 4 Start_Stop_Count 0x0032 100 100 020 Old_age Always - 72 5 Reallocated_Sector_Ct 0x0033 100 100 036 Pre-fail Always - 0 7 Seek_Error_Rate 0x000f 070 060 030 Pre-fail Always - 11302732 9 Power_On_Hours 0x0032 073 073 000 Old_age Always - 24037 10 Spin_Retry_Count 0x0013 100 100 097 Pre-fail Always - 0 12 Power_Cycle_Count 0x0032 100 100 020 Old_age Always - 72 184 End-to-End_Error 0x0032 100 100 099 Old_age Always - 0 187 Reported_Uncorrect 0x0032 100 100 000 Old_age Always - 0 188 Command_Timeout 0x0032 100 100 000 Old_age Always - 0 189 High_Fly_Writes 0x003a 100 100 000 Old_age Always - 0 190 Airflow_Temperature_Cel 0x0022 081 048 045 Old_age Always - 19 191 G-Sense_Error_Rate 0x0032 100 100 000 Old_age Always - 0 192 Power-Off_Retract_Count 0x0032 100 100 000 Old_age Always - 38 193 Load_Cycle_Count 0x0032 100 100 000 Old_age Always - 73 194 Temperature_Celsius 0x0022 019 052 000 Old_age Always - 19 (0 14 0 0) 195 Hardware_ECC_Recovered 0x001a 118 100 000 Old_age Always - 190274202 197 Current_Pending_Sector 0x0012 100 100 000 Old_age Always - 0 198 Offline_Uncorrectable 0x0010 100 100 000 Old_age Offline - 0 199 UDMA_CRC_Error_Count 0x003e 200 200 000 Old_age Always - 0 SMART Error Log Version: 1 No Errors Logged SMART Self-test log structure revision number 1 No self-tests have been logged. SMART Selective self-test log data structure revision number 1 SPAN MIN_LBA MAX_LBA CURRENT_TEST_STATUS 1 0 0 Not_testing 2 0 0 Not_testing 3 0 0 Not_testing 4 0 0 Not_testing 5 0 0 Not_testing Selective self-test flags (0x0): After scanning selected spans, do NOT read-scan remainder of disk. If Selective self-test is pending on power-up, resume after 0 minute delay.

    smartctl -A -v 9,minutes /dev/hda - отобразить все данные атрибутов SMART для устройства /dev/hda и атрибут с идентификатором 9 (время нахождения во включенном состоянии) интерпретировать как внутреннее значение, задаваемое в минутах, а не в часах.

    smartctl --smart=on --offlineauto=on --saveauto=on /dev/hda - включить SMART для диска /dev/hda, разрешить автоматическое выполнение оффлайн-тестов и самосохранение атрибутов. Команду можно выполнять на работающей системе. Фактически, это установка стандартных параметров эксплуатации для обычного дискового накопителя.

    smartctl --test=long /dev/hda - выполнить расширенные встроенные тесты для диска /dev/hda.Команду можно использовать на работающей системе. Для просмотра результатов выполнения тестов используется команда вывода внутреннего журнала после завершения теста
    smartctl -l selftest /dev/hda

    smartctl --attributes --log=selftest --quietmode=errorsonly /dev/had - отобразить данные внутреннего журнала самотестирования и атрибуты ошибок.

    smartctl -s on -t offline /dev/hdc - включить SMART и выполнить оффлайн-тест для диска /dev/hdc. Если при тестировании будет обнаружена ошибка, то информация по ней будет записана во внутренний журнал, просмотреть который можно с использованием параметра -l error .

    smartctl -q silent -a /dev/had - проверить данные SMART без вывода полученной информации.Обычно используется в скриптах. После выполнения команды проверяется код возврата (переменная $? командной оболочки)для определения факта выхода значения какого – либо атрибута за предельную величину или наличия записи об ошибках в журналах устройства.

    smartctl -q errorsonly -H -l selftest /dev/had - выводить информацию только при наличии ошибочного состояния SMART или если какой-либо из внутренних тестов завершился с ошибкой.

    smartctl -t select,10-100 -t select,30-300 -t afterselect,on -t pending,45 /dev/hda - выполнить внутренний тест в заданной области блоков LBA и после его завершения сканировать оставшуюся часть диска. Если при сканировании будет выполнено выключение питания, то продолжить его через 45 минут после включения.

    smartctl --all --device=3ware,0 /dev/sda - получить данные SMART для первого ATA-диска, подключенного к RAID контроллеру 3ware.

    smartctl -a -d 3ware,0 /dev/twe0 - получить данные SMART для первого ATA-диска, подключенного к RAID контроллеру 3ware RAID 6000/7000/8000.

    smartctl -a -d 3ware,0 /dev/twa0 - получить данные SMART для первого ATA-диска, подключенного к RAID контроллеру 3ware RAID 9000

    smartctl -t short -d 3ware,3 /dev/sdb - запустить выполнение коротких внутренних тестов для 4-го диска, второго дискового SCSI устройства /dev/sdb

    smartctl -a -d hpt,1/3 /dev/sda - получить данные SMART диска, подключенного к 3-му каналу первого контроллера HighPoint RocketRAID

    Расшифровка атрибутов S.M.A.R.T

    Идентификаторы атрибутов указаны в десятичной системе счисления, а в скобках они же – в шестнадцатеричной.

  • 001 (1h) Raw Read Error Rate - абсолютное значение ошибок считывания. Существует некоторые отличия в формировании значения данного атрибута разными производителями. Из практики могу сказать, что накопители Seagate могут иметь гигантское значение RAW этого атрибута, реально будучи в хорошем состоянии, а накопители Western Digital могут иметь его нулевым, имея критические показатели по другим характеристикам. Некоторые модели вообще не поддерживают данный атрибут.
  • 002 (02h) Throughput Performance - усредненная производительность жесткого диска. Редко встречающийся атрибут.
  • 003 (3h) Spin Up Time - Среднее время раскрутки шпинделя диска от 0 RPM до рабочей скорости. Для SSD дисков не поддерживается.
  • 004 (4h) Start/Stop Count - Количество циклов запуск/останов шпинделя.
  • 005 (5h) Reallocated Sector Count - Количество переназначенных (перераспределенных) секторов. Современные накопители имеют резервную область поверхности для использования ее объема в случае ухудшения характеристик блоков из основной зоны. Если микропрограмма накопителя обнаруживает ошибки с записи/чтения какого-либо блока рабочей поверхности, то запускается механизм, обеспечивающий переадресацию обращений к дефектному блоку (сектору), на блок из резервной части. Он автоматически перемещает его данные в резервную область, а данный блок помечается как "переназначенный". Часто этот процесс называют "remapping", или "automatic defect reassignment". Процедура переназначения сбойных секторов на резервные, выполняется автоматически внутренней микропрограммой накопителя, и для пользователя (операционной системы) она невидима. Сам факт переназначения и количество переназначенных секторов доступны только из журналов SMART. Поле абсолютного значения атрибута Raw Value содержит общее количество переназначенных секторов. Нормализованное значение Value отражает процент допустимого количества дефектных блоков. При исчерпании резервной области, переназначение становится невозможным и диск подлежит замене. Даже некритическое, но большое значение этого поля, может привести к снижению скорости обмена данными, поскольку накопитель выполняет дополнительные операции установки головок на дорожки резервной области, которая обычно находится в конце рабочей поверхности диска.
  • 007 (7h) Seek Error Rate - Частота появления ошибок позиционирования блока магнитных головок (БМГ) . Дисковые накопители контролирует правильность установки головок на требуемую дорожку поверхности. В случае, когда установка выполнилась неверно, фиксируется ошибка и операция повторяется. На практике, большое количество ошибок позиционирования может быть вызвано не только проблемами оборудования, но и влиянием внешних факторов – не соответствующим температурным режимом или вибрацией.
  • 008 (8h) Seek Time Performance
  • 009 (09h) Power-On Hours (POH) Количество рабочих часов - количество часов, когда диск находился во включенном состоянии за весь срок с момента производства, в виде целочисленного значения в часах. Иногда встречаются модели накопителей, в которых внутреннее значение данного атрибута сохраняется в виде количества рабочих минут или секунд, а не часов. Достижение порогового значения данного атрибута означает выработку ресурса, заданного производителем (MTBF - Mean Time Between Failures
  • 010 (0Ah) Spin Retry Count - Количество повторных попыток старта шпинделя. После включения питания, накопитель раскручивает диски и контролирует достижение рабочей скорости вращения, заданной производителем для данной модели. Если за отведенное контрольное время рабочая скорость не достигнута, увеличивается значение данного атрибута и выполняется повторная раскрутка двигателя.
  • 011 (0B) Recalibration Retries - атрибут отражает количество повторных рекалибровок, в случае, если первая попытка была неудачной. Если значение атрибута увеличивается, то велика вероятность проблем с механической частью накопителя. Кроме того, увеличение абсолютного значения данного атрибута может быть вызвано тем, что процедура рекалибровки используется внутренней микропрограммой накопителя для коррекции других типов ошибок.
  • 012 (0Ch) Device Power Cycle Count - абсолютное значение Raw Value указывает на количество циклов включения/выключения питания накопителя за весь период эксплуатации. Нормализованное значение Value обычно не изменяется и равно 100.
  • 013 (0Dh) - Soft Read Error Rate - Количество программных сбоев - совокупное количество программных сбоев. Нормализованное значение: начиная со 100, отображает процент оставшегося допустимого нарастающего количества программных сбоев.
  • 100 (64h) Erase/Program Cycles - количество циклов стирания –записи перепрограммируемой памяти (flash) для SSD-дисков. Количество таких циклов ограниченно и зависит от микросхем постоянной перезаписываемой памяти, используемых в данной модели SSD.
  • 103 (67h) Translation Table Rebuild - количество событий, связанных с разрушением внутренних таблиц транслятора и его перестроением.
  • 170 (AAh)Reserved Block Count - количество доступных резервных блоков для переназначения сбойных секторов (см. атрибут E8h).
  • 171 (ABh) Program Fail Count - ошибки записи в перепрограммируемую память SSD
  • 172 (ACh) Erase Fail Count – ошибки стирания flash-памяти SSD. Процесс записи в перезаписываемую постоянную память состоит из двух частей - стирания и записи. Процедура стирания всегда выполняется перед записью данных.
  • 173 (ADh) Wear Leveller Worst Case Erase Count - максимально допустимое количество операций стирания для единичного блока SSD-диска.
  • 174 (AEh) Unexpected Power Loss - непредвиденное отключение питания для SSD . Также этот показатель называется «Количество аварийных выключений» в терминологии жестких дисков с магнитными носителями. Абсолютное значение Raw Value: совокупное количество нештатных выключений за весь срок использования устройства.
  • 175 (AFh) Program Fail Count – данный атрибут используется в SSD-накопителях производства Intel и отображает информацию о сбоях защиты от отключения питания SSD-дисков. Результаты последнего теста в виде количества микросекунд до разряда конденсатора, фиксируется на максимальном значении. Также записывается количество минут после последнего теста и общее количество тестов за весь срок использования устройства. Необработанное значение Raw Value: Байты 0-1: Результаты последнего теста в виде количества микросекунд до разряда конденсатора, фиксируется на максимальном значении. Результат теста должен быть в диапазоне 25 - 5 000 000, более низкое значение указывает на определенный код ошибки. Байты 2-3: количество минут после последнего текста, фиксируется на максимальном значении. Байты 4-5: количество тестов за весь срок использования устройства, не увеличивается при циклах включения и отключения, фиксируется на максимальном значении. Значение Value устанавливается равным 1 при сбое теста, или 11 при тестировании конденсатора в недопустимых температурных условиях; в противном случае устанавливается равным 100.
  • 183 (B7h) SATA Downshifts - Количество снижений скорости SATA Необработанное значение: количество случаев, когда из-за ошибок для интерфейса SATA была выбрана пониженная скорость передачи данных (с 6 Гб/с до 3Гб/с или 1,5Гб/с или с 3Гб/с. До 1.5Гб/с. Очень часто данный атрибут характеризует недостаточное качество электропитания, окисление контактов интерфейсного кабеля, или его неисправность.
  • 184 (B8h) End-to-End error Количество обнаруженных сквозных ошибок кэш-памяти (disk cache). Абсолютное значение: количество обнаруженных и исправленных оборудованием сквозных ошибок.
  • 187 (BBh) Reported Uncorrectable Errors Количество невосстановимых ошибок. Необработанное значение Raw Value: количество ошибок, которые не удалось исправить с помощью внутренних подпрограмм накопителя.
  • 188 (BCh) Command Timeout - количество команд, прерванных по таймауту.
  • 189 (BDh) High Fly Writes - количество событий, связанных с ошибками, зафиксированными монитором контроля высоты полета Fly Height Monitor, когда головки записи находятся в положении, не гарантирующем нормальное выполнение операции. Если высота полета головки над магнитной поверхностью, даже на короткое время превысит оптимальную, то записанные ею данные, в дальнейшем, могут не прочитаться. Современные накопители используют специально разработанную технологию контроля высоты полета головок, позволяющую не выполнять запись данных при неоптимальной высоте. В счетчик данного атрибута добавляется единица, а запись выполняется после установки нормальной высоты полета. Повышенное значение данного атрибута может быть вызвано внешними ударами или вибрациями, ненормальной температурой, ухудшением характеристик магнитной поверхности или головки.
  • 190 (BEh) Airflow Temperature температура воздушного потока (корпус). Значение Raw Value: статистические данные по температуре корпуса. Байты 0-1: текущая температура корпуса в градусах по Цельсию; байт 2: недавняя минимальная температура корпуса в градусах по Цельсию; байт 3: недавняя максимальная температура корпуса в градусах по Цельсию; байты 4-5: счетчик превышений температуры. Количество случаев, когда зафиксированная температура превышала максимальную допустимую рабочую температуру накопителя.
  • 191 (BFh) G-sense error rate - количество ошибок, возникающих в результате ударных нагрузок. Атрибут хранит показания встроенного акселерометра, который фиксирует все удары, толчки, падения и даже неаккуратную установку диска в корпус компьютера. Обычно довольно точно характеризует условия эксплуатации ноутбуков - большое значение атрибута говорит о резких толчках и падениях при работе устройства.
  • 192 (C0h) Emergency Retract Cycle Count Количество аварийных выключений (количество нештатных выключений) - совокупное количество событий аварийного (нештатного) отключения питания за весь срок использования устройства. Для SSD дисков под «нештатным выключением» понимается отключение питания устройства без предварительной выдачи команды STANDBY IMMEDIATE.
  • 194 (C2h) HDA Temperature - температура самого накопителя (HDA - Hard Disk Assembly). В данном атрибуте хранятся показания встроенного температурного датчика, которым обычно служит одна из магнитных головок (как правило - нижняя). У SSD дисков термодатчик размещается внутри корпуса на печатной плате. Данные, записанные в полях атрибута отображают текущую, минимальную и максимальную температуру. Поле Worst показывает наихудшую, достигнутую за время работы накопителя, температуру (можно установить факт перегрева и его степень), Raw Value - текущую температуру. Некоторые модели накопителей могут поддерживать атрибут 205 (CDh) Thermal asperity rate (TAR), фиксирующий количество опасных перепадов температуры.
  • 195 (C3h) Hardware ECC Recovered - количество ошибок считывания, исправленных оборудованием накопителя с применением кода коррекции ошибок. Подобные ошибки не требуют повторного считывания сектора, и не приводят к потере скорости обмена данными, но большое их количество говорит об ухудшении параметров тракта считывания.
  • 196 (C4h) Reallocation Event Count raw value
  • Поле raw value этого атрибута показывает общее количество секторов, которые накопитель в данный момент считает кандидатами на переназначение в резервную область. Если в дальнейшем какой-то из этих секторов будет прочитан успешно, то он исключается из списка кандидатов. Если же чтение сектора будет сопровождаться ошибками, то накопитель попытается восстановить данные и перенести их в резервную область, а сам сектор пометить как переназначенный (remapped).
  • 198 (C6) Uncorrectable Sector Count - Счетчик некорректируемых ошибок, т.е, счетчик ошибок, которые не были исправлены внутренними средствами коррекции оборудования накопителя. Это означает, что такие ошибки проявляются как классические сбойные блоки файловой системы (Bad Block). Причиной подобных сбоев диска, может быть неисправность отдельных элементов или отсутствие свободных секторов в резервной области диска, когда возникла необходимость переназначения.
  • 199 (C7h) UltraDMA CRC Error Rate - Количество ошибок при передаче данных в режиме прямого доступа к памяти, обнаруженных средствами циклического избыточного кода (англ. Cyclic redundancy check, CRC). Аппаратные средства контроля передачи данных из накопителя в оперативную память обнаружили ошибку контрольной суммы и исправили ее “на лету”, если ошибка исправимая. В данном случае алгоритм обычной работы диска не изменяется. В случае же неисправимой ошибки, процедура ее обработки выполняется системой. Обычно, данный атрибут содержит счетчик любых видов ошибок CRC. Нередко этот тип ошибки связан не столько с оборудованием накопителя, сколько с неисправным интерфейсным кабелем, окислившимися контактами, некачественным электропитанием, разгоном частоты шины PCI, перегревом микросхем чипсета материнской платы и т.п.
  • 200 (C8h) Write Error Rate (Multi Zone Error Rate) - ошибки записи данных.
  • 232 (E8h) Total Count of Write Sectors Для SSD-дисков - количество записанных секторов. Значение Raw Value увеличивается на 1 на каждые 65 536 секторов (32 МБ), записываемых системой. Для SSD Intel - Intel SSD Available Reserved Space - процент доступной резервной области, используемой для переназначения дефектных блоков.
  • 233 (E9h) Power-On Hours - Время работы накопителя. Для SSD-дисков этот атрибут интерпретируется как Remaining Life - указатель износа носителя. Количество циклов работы носителя NAND. Линейно снижается от 100 до 1 по мере увеличения среднего количества циклов стирания от 0 до максимального. Нормализованное значение перестанет уменьшаться после достижения 1, но, по всей вероятности, устройство выдержит значительный дополнительный износ.
  • 241 (F1h) Total LBAs Written - Общее количество записанных секторов LBA. Значение Raw Value: совокупное количество секторов, записанных системой. Значение увеличивается на 1 на каждые 65 536 секторов (32 МБ), записываемых системой.
  • 242 (F2h) Total LBAs Read - Общее количество прочитанных секторов LBA. Значение Raw Value увеличивается на 1 на каждые 65 536 секторов (32 МБ), прочитываемых системой.
  • 254 (FEh) Free Fall Event Count - количество событий ускорения свободного падения диска за время эксплуатации (сколько раз диск падал).

    Оценка технического состояния жесткого диска по данным S.M.A.R.T

    Набор атрибутов поддерживаемых конкретной моделью жесткого диска, даже если он минимален, позволяет с высокой достоверностью определить техническое состояние и перспективы эксплуатации устройства. Можно определить время нахождения во включенном состоянии по значению атрибута 9 , а в совокупности со значением атрибута 12 - количество включений /выключений электропитания, и следовательно, – круглосуточный или периодический режим эксплуатации. Интенсивность использования, температурный режим, негативные внешние воздействия – все эти факты легко отслеживаются по абсолютным значениям соответствующих атрибутов. Подобным же образом, можно оценить и уровень износа оборудования, качество поверхности и тракта записи/чтения.

    Минимально информативный контроль состояния дисков может выполняться даже на уровне BIOS. В случае достижения критического значения любого атрибута, характеризующего работоспособность, при включенном мониторинге состояния S.M.A.R.T в настройках BIOS, загрузка операционной системы приостанавливается и на экран выводится сообщение:

    Primary Master Hard Disk: S.M.A.R.T status BAD!, Backup and Replace.
    Press F1 to Resume

    Таким образом, без установки или запуска дополнительного программного обеспечения, имеется возможность вовремя определить факт критического состояния накопителя средствами Базовой Системы Ввода-Вывода (BIOS) при включении компьютера.

    Техническое состояние жесткого диска, не достигшее критического порога, характеризуется абсолютным значением атрибутов, отражающих счетчики сбоев, обнаруженных и исправленных оборудованием накопителя.

  • 001 (1) Raw Read Error Rate - абсолютное значение ошибок считывания. Существует некоторые отличия в формировании значения данного атрибута разными производителями. На практике, накопители Seagate могут иметь гигантское значение RAW этого атрибута, реально будучи в хорошем состоянии, а накопители Western Digital могут иметь его нулевым, имея критические показатели по другим характеристикам. Некоторые модели вообще могут не поддерживать данный атрибут.
  • 005 (5) Reallocated Sector Count - Количество переназначенных секторов. Ненулевое значение данного счетчика говорит о том, что были обнаружены дефектные блоки, данные которых перенесены в резервную область.
  • 196 (C4) Reallocation Event Count - Число событий переназначения сбойных секторов. В поле raw value данного атрибута хранится общее число попыток переноса данных из нестабильных секторов в резервную область. Учитываются как успешные, так и неуспешные попытки.
  • 197 (C5) Current Pending Sector Count - Текущее количество нестабильных секторов. Поле raw value этого атрибута показывает общее количество секторов, которые накопитель в данный момент считает кандидатами на переназначение в резервную область (remap). Если в дальнейшем какой-то из этих секторов будет прочитан успешно, то он исключается из списка кандидатов. Если же чтение сектора будет сопровождаться ошибками, то накопитель попытается восстановить данные и перенести их в резервную область, а сам сектор пометить как переназначенный (remapped). Если значение атрибутов 5,196,197 увеличивается за короткий промежуток времени (дни, или даже часы), то это является настораживающим признаком – либо ухудшаются технические параметры самого накопителя, либо сказывается влияние внешних воздействий.
  • 007 (07h) Seek Error Rate - Частота появления ошибок позиционирования блока магнитных головок (БМГ). Большое значение говорит о проблемах механизма позиционирования, хотя может быть вызвано и внешними факторами, такими как перегрев или повышенная вибрация.
  • 008 (08h) Seek Time Performance - средняя скорость позиционирования магнитных головок. Если значение атрибута уменьшается (замедление позиционирования), то велика вероятность проблем с механической частью привода головок.
  • 199 (C7) UltraDMA CRC Error Count - Счетчик ошибок, возникших при передаче данных в режиме UltraDMA. Рост абсолютного значения указывает на проблемы при передаче данных контроллером диска в оперативную память. Чаще всего, вызвано плохим кабелем и нестабильным электропитанием.

    Изменение абсолютных значений атрибутов нужно рассматривать в динамике, и в логической взаимосвязи друг с другом.

    Выполнение встроенных тестов S.M.A.R.T

    Набор встроенных тестов S.M.A.R.T определяется производителем и может значительно отличаться для разных моделей жестких дисков. В основном, встроенные тесты SMART представлены короткими тестами (short self-test) и длинными (extended sels-test). Короткие тесты выполняют сканирование небольшой части дисковой поверхности, определенной производителем, и выполняются, в среднем, около 1 минуты. Длинные тесты выполняют сканирование всей рабочей поверхности диска и могут выполняться, в зависимости от быстродействия и объема диска, даже несколько часов. Также, для современных дисков, можно выполнять селективные тесты (selective self-test), параметры которых задаются пользователем и тесты после транспортировки устройства (conveyance self-test). Выполнение тестов можно прервать, если не задан режим захвата накопителя (captive) и накопитель поддерживает команду отмены теста. Что касается режима захвата накопителя при выполнении тестов captive , то пользоваться им нужно осторожно, если диск используется системой.

    Примеры:

    smartctl --test=short /dev/sdb - запустить короткий тест. В ответ на команду, будет выведена информация:

    === START OF OFFLINE IMMEDIATE AND SELF-TEST SECTION === Sending command: "Execute SMART Short self-test routine immediately in off-line mode". Drive command "Execute SMART Short self-test routine immediately in off-line mode" successful. Testing has begun (previous test aborted). Please wait 1 minutes for test to complete. Test will complete after Fri Dec 5 16:08:09 2014 Use smartctl -X to abort test.

    Что означает, что диску отправлена команда на выполнение короткого теста, диск ее воспринял успешно, тест будет продолжаться 1 минуту, и для принудительного его прекращения можно воспользоваться командой smartctl –X.

    Результат выполнения теста можно проверить, просмотрев журнал тестов командой smartctl –l selftest . В ответ будет получена информация журнала selftest :

    === START OF READ SMART DATA SECTION === SMART Self-test log structure revision number 1 Num Test_Description Status Remaining LifeTime(hours) LBA_of_first_error # 1 Short offline Completed without error 00% 831 -

    Колонки журнала: Num - номер записи.
    Test_Description - описание теста.
    Status - статус завершения (выполнен без ошибок)
    Remaining - процент оставшегося времени до завершения теста, если он еще не завершен (00%)
    LifeTime(hours) - время работы накопителя с начала эксплуатации.
    LBA_of_first_error - номер логического блока LBA где обнаружена первая ошибка при выполнении теста. В данном примере, ошибок нет.

    Для запуска длинного теста используется команда:

    smartctl --test=long /dev/sdb

    В ответ на команду выводится информация о начале теста:

    === START OF OFFLINE IMMEDIATE AND SELF-TEST SECTION === Sending command: "Execute SMART Extended self-test routine immediately in off-line mode". Drive command "Execute SMART Extended self-test routine immediately in off-line mode" successful. Testing has begun. Please wait 70 minutes for test to complete. Test will complete after Fri Dec 5 17:15:44 2014

    Как видно, длинный тест для данной модели накопителя будет выполняться 70 минут.

    Результат выполнения можно проверить командой smartctl –l selftest /dev/sda

    Список команд ATA для работы с S.M.A.R.T

    SMART_READ_VALUES 0xd0 SMART_READ_THRESHOLDS 0xd1 SMART_AUTOSAVE 0xd2 SMART_SAVE 0xd3 SMART_IMMEDIATE_OFFLINE 0xd4 SMART_READ_LOG_SECTOR 0xd5 SMART_WRITE_LOG_SECTOR 0xd6 SMART_ENABLE 0xd8 SMART_DISABLE 0xd9 SMART_STATUS 0xda SMART_AUTO_OFFLINE 0xdb

    Дополнительно по теме оборудования в Linux:

  • Рано или поздно (лучше, конечно, если рано) любой пользователь задает себе вопрос о том, как долго еще протянет установленный у него на компьютере жесткий диск и не пора ли присмотреть ему замену. Удивительного в этом ничего нет, поскольку жесткие диски в силу своих конструктивных особенностей являются наименее надежными среди компьютерных комплектующих. При этом именно на HDD у большинства пользователей хранится львиная доля самой разнообразной информации: документов, снимков, разнообразного ПО и т.д., вследствие чего неожиданный выход диска из строя - всегда трагедия. Конечно, нередко информацию на внешне «мертвых» жестких дисках можно восстановить, но не исключено, что эта операция влетит вам «в копеечку», да и нервов будет стоить немалых. Поэтому гораздо эффективнее попытаться предупредить потерю данных.
    Как? Очень просто… Во-первых, не забывать о регулярном резервном копировании данных, а во-вторых, контролировать состояние дисков с помощью специализированных утилит. Несколько программ такого плана в ракурсе решаемых задач мы и рассмотрим в данной статье.

    Контроль SMART-параметров и температуры

    Все современные HDD и даже твердотельные накопители (SSD) поддерживают технологию S.M.A.R.T. (от англ. Self-Monitoring, Analysis, and Reporting Technology - технология самоконтроля, анализа и отчетности), которая была разработана основными производителями жестких дисков для увеличения надежности их продукции. Данная технология базируется на непрерывном мониторинге и оценке состояния жесткого диска встроенной аппаратурой самодиагностики (специальными сенсорами), а ее основное предназначение - своевременное выявление возможного выхода накопителя из строя.

    Мониторинг состояния HDD в реальном времени

    Ряд информационно­диагностических решений для диагностики и тестирования «железа», а также специальные мониторинговые утилиты используют технологию S.M.A.R.T. для наблюдения за текущим состоянием различных жизненно важных параметров, описывающих надежность и производительность жестких дисков. Они считывают соответствующие параметры непосредственно с сенсоров и термодатчиков, которыми оснащены все современные жесткие диски, анализируют полученные данные и отображают их в виде краткого табличного отчета с перечнем атрибутов. При этом часть утилит (Hard Drive Inspector, HDDlife, Crystal Disk Info и т.п.) не ограничивается отображением таблицы атрибутов (значения которых для неподготовленных пользователей непонятны) и дополнительно выводит краткую информацию о состоянии диска в более доступном для понимания виде.

    Диагностировать состояние жесткого диска с помощью такого рода утилит проще простого - достаточно ознакомиться с краткой базовой информацией об установленных HDD: с основными данными о дисках в Hard Drive Inspector, неким условным процентом здоровья жесткого диска в HDDlife, индикатором «Техсостояние» в Crystal Disk Info (рис. 1) и т.д. В любой из подобных программ предоставляется минимум необходимой информации о каждом из установленных на компьютере HDD: данные о модели винчестера, его объеме, рабочей температуре, отработанном времени, а также уровне надежности и производительности. Эта информация дает возможность сделать определенные выводы о работоспособности носителя.

    Рис. 1. Краткая информация о «здоровье» рабочего HDD

    Следует настроить запуск мониторинговой утилиты одновременно со стартом операционной системы, скорректировать интервал времени между проверками S.M.A.R.T.-атрибутов, а также включить отображение температуры и «уровня здоровья» жестких дисков в системном трее. После этого для контроля за состоянием дисков пользователю достаточно будет время от времени поглядывать на индикатор в системном трее, где будет отображаться краткая информация о состоянии имеющихся в системе накопителей: уровне их «здоровья» и температуре (рис. 2). Кстати, рабочая температура - это не менее важный показатель, чем условный показатель здоровья HDD, ведь жесткие диски могут внезапно выйти из строя вследствие банального перегрева. Поэтому если жесткий диск нагревается выше 50 °C, то разумнее будет обеспечить ему дополнительное охлаждение.

    Рис. 2. Отображение состояния жесткого диска
    в системном трее программой HDDlife

    Стоит отметить, что в ряде таких утилит предусмотрена интеграция с проводником Windows, благодаря чему на иконках локальных дисков в случае их исправности отображается зеленый значок, а при возникновении проблем значок становится красным. Так что забыть о состоянии здоровья жестких дисков вам вряд ли удастся. При таком постоянном мониторинге вы не сможете пропустить момент, когда с диском начнут возникать какие­то проблемы, ведь в случае выявления утилитой критических изменений атрибутов S.M.A.R.T. и/или температуры она заботливо оповестит об этом пользователя (сообщением на экране, звуковым сообщением и т.д. - рис. 3). Благодаря этому можно будет успеть скопировать данные с внушающего опасение носителя заблаговременно.

    Рис. 3. Пример сообщения о необходимости немедленной замены диска

    Использовать на практике решения S.M.A.R.T.-мониторинга для наблюдения за состоянием жестких дисков совершенно необременительно, ведь все подобные утилиты работают в фоновом режиме и требуют минимум аппаратных ресурсов, поэтому их функционирование ни в коей мере не помешает основному рабочему процессу.

    Контроль S.M.A.R.T.-атрибутов

    Продвинутые пользователи, разумеется, вряд ли ограничатся для оценки состояния жестких дисков просмотром краткого вердикта одной из представленных выше утилит. Оно и понятно, ведь по расшифровке атрибутов S.M.A.R.T. можно выявить причину сбоев и при необходимости предусмотрительно предпринять какие­то дополнительные меры. Правда, для самостоятельного контроля S.M.A.R.T.-атрибутов потребуется хотя бы кратко ознакомиться с технологией S.M.A.R.T.

    В состав поддерживающих эту технологию жестких дисков ивключены интеллектуальные процедуры самодиагностики, поэтому они способны «сообщать» о своем текущем состоянии. Данная диагностическая информация предоставляется как коллекция атрибутов, то есть конкретных характеристик жесткого диска, используемых для анализа его производительности и надежности.

    Бо льшая часть важных атрибутов имеет один и тот же смысл для дисков всех производителей. Значения данных атрибутов при нормальной работе диска могут варьироваться в некоторых интервалах. Для любого параметра производителем определено некое минимально безопасное значение, которое не может быть превышено при нормальных условиях эксплуатации. Однозначно определить критически важные и критически неважные для диагностики параметры S.M.A.R.T. проблематично. Каждый из атрибутов имеет свою информационную ценность и свидетельствует о том или ином аспекте в работе носителя. Однако в первую очередь следует обращать внимание на следующие атрибуты:

    • Raw Read Error Rate - частота ошибок чтения данных с диска, возникших по вине оборудования;
    • Spin Up Time - среднее время раскрутки шпинделя диска;
    • Reallocated Sector Count - число операций переназначения секторов;
    • Seek Error Rate - частота появления ошибок позиционирования;
    • Spin Retry Count - число повторных попыток раскрутки дисков до рабочей скорости в случае неудачности первой попытки;
    • Current Pending Sector Count - количество нестабильных секторов (то есть секторов, ожидающих процедуру переназначения);
    • Offline Scan Uncorrectable Count - общее количество нескорректированных ошибок во время операций чтения/записи секторов.

    Обычно атрибуты S.M.A.R.T. отображаются в табличном виде с указанием имени атрибута (Attribute), его идентификатора (ID) и трех значений: текущего (Value), минимального порогового (Threshold) и самого низкого значения атрибута за всё время работы накопителя (Worst), а также абсолютного значения атрибута (Raw). Каждый атрибут имеет текущее значение, которое может быть любым числом от 1 до 100, 200 или 253 (общих стандартов для верхних границ значений атрибутов не предусмотрено). Значения Value и Worst у совершенно нового винчестера совпадают (рис. 4).

    Рис. 4. Атрибуты S.M.A.R.T. у нового HDD

    Приведенная на рис. 4 информация позволяет сделать вывод, что у теоретически исправного винчестера текущие (Value) и наихудшие (Worst) значения должны быть максимально близкими друг к другу, а значение Raw у большинства параметров (за исключением параметров: Power-On Time, HDA Temperature и некоторых других) должно приближаться к нулю. Текущее значение может со временем изменяться, что в большинстве случаев отражает ухудшение параметров жесткого диска, описываемых атрибутом. Это можно увидеть на рис. 5, где представлены фрагменты таблицы атрибутов S.M.A.R.T. для одного и того же диска - данные получены с интервалом в полгода. Как видим, в более свежей версии S.M.A.R.T. увеличилась частота ошибок при чтении данных с диска (Raw Read Error Rate), происхождение которых обусловлено аппаратной частью диска, и частота ошибок при позиционировании блока магнитных головок (Seek Error Rate), что, возможно, свидетельствует о перегреве винчестера и его неустойчивом положении в корзине. Если текущее значение какого-нибудь атрибута приближается или становится меньше порогового, то жесткий диск признается ненадежным, и его следует срочно менять. Например, падение значения атрибута Spin-Up Time (среднее время раскрутки шпинделя диска) ниже критического значения, как правило, сообщает о полном износе механики, вследствие чего диск больше не в состоянии поддерживать заданную производителем скорость вращения. Поэтому необходимо контролировать состояние HDD и периодически (например, раз в 2-3 месяца) проводить диагностику S.M.A.R.T. и сохранять полученную информацию в текстовом файле. В дальнейшем эти данные можно будет сравнить с текущими и сделать определенные выводы о развитии ситуации.

    Рис. 5. Таблицы атрибутов S.M.A.R.T., полученные с полугодовым интервалом
    (более свежая версия S.M.A.R.T. внизу)

    При просмотре S.M.A.R.T.-атрибутов в первую очередь стоит обращать внимание на критически важные параметры, а также на параметры, выделенные отличными от базового цвета (чаще синего или зеленого) индикаторами. В зависимости от текущего состояния атрибута в выводимой утилитой S.M.A.R.T. таблице он обычно маркируется тем или иным цветом, что облегчает понимание ситуации. В частности, в программе Hard Drive Inspector цветовой индикатор может иметь зеленый, желто­зеленый, желтый, оранжевый или красный цвет - зеленый и желто­зеленый цвета говорят о том, что всё нормально (значение атрибута не менялось или несущественно менялось), а желтый, оранжевый и красный цвета сигнализируют об опасности (хуже всего красный цвет, который говорит о том, что значение атрибута достигло своего критического значения). Если какой­то из критически важных параметров отмечен значком красного цвета, то нужно срочно заменить винчестер.

    Просмотрим в программе Hard Drive Inspector таблицу S.M.A.R.T.-атрибутов того самого диска, краткая оценка которого мониторинговыми утилитами нами была приведена ранее. Из рис. 6 видно, что значения всех атрибутов в норме и все параметры промаркированы зеленым цветом. Аналогичную картину покажут и утилиты HDDlife и Crystal Disk Info. Правда, более профессиональные решения для анализа и диагностики HDD не столь лояльны и часто маркируют S.M.A.R.T.-атрибуты более придирчиво. К примеру, такие известные утилиты, как HD Tune Pro и HDD Scan, в нашем случае с подозрением отнеслись к атрибуту UltraDMA CRC Errors, который отображает число ошибок, возникающих при передаче информации по внешнему интерфейсу (рис. 7). Причина возникновения таких ошибок обычно связана с перекрученным и некачественным SATA-шлейфом, который, возможно, следует заменить.

    Рис. 6. Таблица S.M.A.R.T.-атрибутов, полученная в программе Hard Drive Inspector

    Рис. 7. Результаты оценки состояния S.M.A.R.T.-атрибутов
    утилитами HD Tune Pro и HDD Scan

    Для сравнения ознакомимся со S.M.A.R.T.-атрибутами очень древнего, но пока еще работающего HDD с периодически возникающими проблемами. Программе Crystal Disk Info доверия он не внушил - в индикаторе «Техсостояние» состояние диска было оценено как тревожное, а атрибут Reallocated Sector Count (Переназначенные сектора) оказался выделенным желтым цветом (рис. 8). Это весьма важный с точки зрения «здоровья» диска атрибут, обозначающий число секторов, переназначенных при обнаружении диском ошибки чтения/записи, при этой операции данные с поврежденного сектора переносятся в резервную область. Желтый цвет индикатора у параметра говорит о том, что оставшихся резервных секторов, которыми можно заменить сбойные, осталось мало, и вскоре переназначать вновь появляющиеся сбойные сектора окажется нечем. Проверим также, как оценивают состояние диска более серьезные решения, например широко используемая профессионалами утилита HDDScan, - но и здесь видим точно такой же результат (рис. 9).

    Рис. 8. Оценка проблемного жесткого диска в CrystalDiskInfo

    Рис. 9. Результаты S.M.A.R.T.-диагностики HDD в HDDScan

    Значит, с заменой такого жесткого диска тянуть явно не стоит, хотя он еще и может некоторое время послужить, правда операционную систему на данный жесткий диск устанавливать, конечно, нельзя. Стоит отметить, что при наличии большого числа переназначенных секторов скорость чтения/записи падает (вследствие лишних движений, которые приходится совершать магнитной головке), и диск начинает заметно тормозить.

    Сканирование поверхности на bad-сектора

    К сожалению, на практике одним контролем SMART-параметров и температуры не обойтись. При появлении мельчайших свидетельств о том, что с диском что­то не так (в случае периодического зависания программ, например при сохранении результатов, появлении сообщений об ошибках чтения и т.д.) необходимо просканировать поверхность диска на наличие нечитаемых секторов. Для проведения подобной проверки носителя можно воспользоваться, например, утилитами HD Tune Pro и HDDScan или диагностическими утилитами от производителей винчестеров, однако эти утилиты работают только со своими моделями жестких дисков, а потому рассматривать их мы не будем.

    При использовании подобных решений существует опасность повреждения данных на сканируемом диске. С одной стороны, с информацией на диске, если накопитель действительно окажется неисправным, в ходе сканирования может случиться все что угодно. С другой стороны, нельзя исключать некорректных действий со стороны пользователя, по ошибке запускающего сканирование в режиме записи, в ходе которого происходит посекторное затирание данных с винчестера определенной сигнатурой, и на основании скорости этого процесса делается вывод о состоянии жесткого диска. Поэтому соблюдение определенных правил предосторожности совершенно необходимо: перед запуском утилиты нужно создать резервную копию информации и в ходе проверки действовать строго по инструкции разработчика соответствующего ПО. Для получения более точных результатов перед сканированием лучше закрыть все активные приложения и выгрузить возможные фоновые процессы. Кроме того, следует иметь в виду, что при необходимости тестирования системного HDD нужно загрузиться с флэшки и с нее запускать процесс сканирования либо совсем снять жесткий диск и подсоединить его к другому компьютеру, с которого и запускать тестирование диска.

    В качестве примера с помощью HD Tune Pro проверим на плохие сектора поверхность HDD, который выше не внушил доверия утилите Crystal Disk Info. В этой программе для запуска процесса сканирования достаточно выбрать нужный диск, активировать вкладку Error Scan и щелкнуть на кнопке Start . После этого утилита приступит к последовательному сканированию диска, считывая сектор за сектором и отмечая на карте диска сектора разноцветными квадратиками. Цвет квадратиков в зависимости от ситуации может быть зеленым (нормальные сектора) или красным (bad-блоки) либо будет иметь некий промежуточный между этими цветами оттенок. Как видим из рис. 10, в нашем случае полноценных bad-блоков утилита не нашла, но тем не менее налицо солидное количество секторов с той или иной задержкой чтения (судя по их цвету). В дополнение к оному в средней части диска имеется небольшой блок секторов, цвет которого близок к красному - данные сектора пока утилитой не признаны сбойными, но они уже близки к этому и перейдут в категорию сбойных в самое ближайшее время.

    Рис. 10. Сканирование поверхности на bad-сектора в HD Tune Pro

    Протестировать носитель на плохие сектора в программе HDDScan сложнее, да и опаснее, поскольку в случае неверно выбранного режима информация на диске будет безвозвратно утрачена. Первым делом для запуска сканирования создают новую задачу, щелкнув по кнопке New Task и выбрав в списке команду Suface Tests . Затем нужно удостовериться, что выбран режим Read - этот режим устанавливается по умолчанию и при его использовании тестирование поверхности жесткого диска производится по чтению (то есть без удаления данных). После этого нажимают на кнопку Add Test (рис. 11) и дважды щелкают на созданной задаче RD-Read . Теперь в открывшемся окне можно наблюдать процесс сканирования диска на графике (Graph) или на карте (Map) - рис. 12. По завершении процесса получим примерно такие же результаты, что выше были продемонстрированы утилитой HD Tune Pro, но с более четкой интерпретацией: сбойных секторов нет (они отмечаются синим цветом), но в наличии три сектора со временем отклика более 500 мс (помечены красным цветом), которые и представляют реальную опасность. Что касается шести оранжевых секторов (время отклика от 150 до 500 мс), то это можно считать в пределах нормы, поскольку такая задержка отклика зачастую вызывается временными помехами в виде, например, работающих фоновых программ.

    Рис. 11. Запуск тестирования диска в программе HDDScan

    Рис. 12. Результаты сканирования диска в режиме Read с помощью HDDScan

    В дополнение следует отметить, что при наличии небольшого количества bad-блоков можно попытаться улучшить состояние жесткого диска, убрав плохие сектора путем сканирования поверхности диска в режиме линейной записи (Erase) с помощью программы HDDScan. После такой операции некоторое время диск еще может эксплуатироваться, но, конечно, не в качестве системного. Однако уповать на чудо не стоит, поскольку HDD уже начал сыпаться, и нет никаких гарантий, что в ближайшее время количество дефектов не возрастет и накопитель окончательно не выйдет из строя.

    Программы для S.M.A.R.T.-мониторинга и тестирования HDD

    HD Tune Pro 5.00 и HD Tune 2.55

    Разработчик: EFD Software

    Размер дистрибутива: HD Tune Pro - 1,5 Мбайт; HD Tune - 628 Кбайт

    Работа под управлением: Windows XP/Server 2003/Vista/7

    Способ распространения: HD Tune Pro - shareware (15-дневная демо-версия); HD Tune - freeware (http://www.hdtune.com/download.html)

    Цена: HD Tune Pro - 34,95 долл.; HD Tune - бесплатно (только для некоммерческого применения)

    HD Tune - удобная утилита для диагностики и тестирования HDD/SSD (см. таблицу), а также карт памяти, USB-дисков и ряда других устройств хранения данных. Программа отображает детальную информацию о накопителе (версия прошивки, серийный номер, объем диска, размер буфера и режим передачи данных) и позволяет установить состояние устройства с использованием данных S.M.A.R.T. и мониторинга температуры. Кроме того, с ее помощью можно провести тестирование поверхности диска на наличие ошибок и оценить производительность устройства, проведя серию тестов (тесты скорости последовательного и случайного чтения/записи данных, тест файловой производительности, тест кэша и ряд Extra-тестов). Также утилита может использоваться для настройки AAM и безопасного удаления данных. Программа представлена в двух редакциях: коммерческой HD Tune Pro и бесплатной облегченной HD Tune. В редакции HD Tune доступен только просмотр детальной информации о диске и таблицы атрибутов S.M.A.R.T., а также сканирование диска на ошибки и тестирование на скорость в режиме чтения (Low level benchmark - read).

    За мониторинг S.M.A.R.T.-атрибутов в программе отвечает вкладка Health - считывание данных с сенсоров производится через установленный промежуток времени, результаты отображаются в таблице. Для любого атрибута можно просмотреть историю его изменений в численном виде и на графике. Данные мониторинга автоматически записываются в лог, но никаких уведомлений пользователя при критических изменениях параметров не предусмотрено.

    Что касается сканирования поверхности диска на предмет наличия поврежденных секторов, то за эту операцию отвечает вкладка Error Scan . Сканирование может быть быстрым (Quick scan) и глубоким - при быстрой проверке проверяется не весь диск, а только какая-то его часть (зона сканирования определяется через поля Start и End). Поврежденные сектора отображаются на карте диска в виде красных блоков.

    HDDScan 3.3

    Разработчик: Artem Rubtsov

    Размер дистрибутива: 3,64 Мбайт

    Работа под управлением: Windows 2000(SP4)/XP(SP2/SP3)/Server 2003/Vista/7

    Способ распространения: freeware (http://hddscan.com/download/HDDScan-3.3.zip)

    Цена: бесплатно

    HDDScan - утилита для низкоуровневой диагностики жестких дисков, твердотельных накопителей и Flash-дисков с интерфейсом USB. Основное предназначение данной программы - тестирование дисков на наличие bad-блоков и сбойных секторов. Также утилита может использоваться для просмотра содержимого S.M.A.R.T., мониторинга температуры и изменения некоторых настроек жесткого диска: управления шумом (AAM), управления питанием (APM), принудительного запуска/остановки шпинделя накопителя и др. Программа работает без установки и может запускаться с портативного носителя, например флэшки.

    Отображение S.M.A.R.T.-атрибутов и мониторинг температуры в HDDScan производится по требованию. Отчет S.M.A.R.T. содержит информацию о производительности и «здоровье» накопителя в виде стандартной таблицы атрибутов, температура накопителя отображается в системном трее и в специальном информационном окне. Отчеты можно распечатывать или сохранять в MHT-файле. Возможно проведение S.M.A.R.T.-тестов.

    Проверка поверхности диска производится в одном из четырех режимов: Verify (режим линейной верификации), Read (линейного чтения), Erase (линейной записи) и Butterfly Read (режим чтения Butterfly). Для проверки диска на наличие bad-блоков обычно используется тест в режиме чтения (Read), с помощью которого происходит тестирование поверхности без удаления данных (вывод о состоянии накопителя делается на основании скорости посекторного чтения данных). При тестировании в режиме линейной записи (Erase) информация на диске затирается, но зато данный тест может несколько подлечить диск, избавив его от сбойных секторов. В любом из режимов тестировать можно весь диск полностью либо определенный его фрагмент (зона сканирования определяется указанием начального и конечного логических секторов - Start LBA и End LBA соответственно). Результаты тестирования представляются в виде отчета (вкладка Report) и отображаются на графике (Graph) и карте диска (Map) с указанием в числе прочего количества сбойных секторов (Bads) и секторов, время отклика которых при тестировании заняло более 500 мс (помечены красным цветом).

    Hard Drive Inspector 4.13

    Разработчик: AltrixSoft

    Размер дистрибутива: 2,64 Мбайт

    Работа под управлением: Windows 2000/XP/2003 Server/Vista/7

    Способ распространения: shareware (14-дневная демо-версия - http://www.altrixsoft.com/ru/download/)

    Цена : Hard Drive Inspector Professional - 600 руб.; Hard Drive Inspector for Notebooks - 800 руб.

    Hard Drive Inspector - удобное решение для S.M.A.R.T.-мониторинга внешних и внутренних HDD. В данный момент на рынке программа предлагается в двух редакциях: базовой Hard Drive Inspector Professional и портативной Hard Drive Inspector for Notebooks; последняя включает всю функциональность версии Professional, и в то же время учитывает специфику мониторинга жестких дисков ноутбуков. Теоретически существует еще версия SSD, но она распространяется только в OEM-поставках.

    Программа обеспечивает автоматическую проверку S.M.A.R.T.-атрибутов через указанные промежутки времени и по завершении выдает свой вердикт относительно состояния накопителя с отображением значений неких условных индикаторов: «надежности», «производительности» и «отсутствия ошибок» вместе с числовым значением температуры и температурной диаграммой. Также приводятся технические данные о модели диска, его емкости, общем свободном месте и времени работы в часах (днях). В расширенном режиме можно посмотреть информацию о параметрах диска (размер буфера, название прошивки и т.д.) и таблицу атрибутов S.M.A.R.T. Предусмотрены разные варианты информирования пользователя в случае критических изменений на диске. Дополнительно утилита может быть использована для снижения уровня шума, производимого жесткими дисками, и снижения энергопотребления HDD.

    HDDlife 4.0

    Разработчик: BinarySense, Ltd

    Размер дистрибутива: 8,45 Мбайт

    Работа под управлением: Windows 2000/XP/2003/Vista/7/8

    Способ распространения: shareware (15-дневная демо-версия - http://hddlife.ru/rus/downloads.html)

    Цена : HDDLife - бесплатно; HDDLife Pro - 300 руб.; HDDlife for Notebooks - 500 руб.

    HDDLife - простая утилита, предназначенная для контроля состояния жестких дисков и SSD (с версии 4.0). Программа представлена в трех редакциях: бесплатной HDDLife и двух коммерческих - базовой HDDLife Pro и портативной HDDlife for Notebooks.

    Утилита осуществляет мониторинг S.M.A.R.T.-атрибутов и температуры через заданные промежутки времени и по результатам анализа выдает компактный отчет о состоянии диска с указанием технических данных о модели диска и его емкости, отработанном времени, температуре, а также отображает условный процент его здоровья и производительности, что позволяет сориентироваться в ситуации даже новичкам. Более опытные пользователи дополнительно могут посмотреть таблицу S.M.A.R.T.-атрибутов. В случае проблем с жестким диском предусмотрена возможность настройки уведомлений; можно настроить программу так, чтобы при нормальном состоянии диска результаты проверки не отображались. Возможно управление уровнем шума HDD и энергопотреблением.

    CrystalDiskInfo 5.4.2

    Разработчик: Hiyohiyo

    Размер дистрибутива: 1,79 Мбайт

    Работа под управлением: Windows XP/2003/Vista/2008/7/8/2012

    Способ распространения: freeware (http://crystalmark.info/download/index-e.html)

    Цена: бесплатно

    CrystalDiskInfo - простая утилита для S.M.A.R.T.-мониторинга состояния жестких дисков (включая многие внешние HDD) и SSD. Несмотря на бесплатность программа обладает всем необходимым функционалом для организации контроля состояния дисков.

    Мониторинг дисков производится автоматически через указанное число минут или по требованию. По окончании проверки в системном трее отображается температура контролируемых устройств; детальная информация об HDD с указанием значений S.M.A.R.T.-параметров, температуры и вердикта программы о состоянии устройств доступна в главном окне утилиты. Имеется функционал для настройки пороговых значений для некоторых параметров и автоматического уведомления пользователя в случае их превышения. Возможно управление уровнем шума (AAM) и питанием (APM).

    К сожалению, немалая часть современных HDD нормально работает чуть больше года, потом начинаются разного рода проблемы, которые со временем могут привести к потере данных. Подобной перспективы вполне можно избежать, если внимательно следить за состоянием жесткого диска, например, с помощью рассмотренных в статье утилит. Однако забывать о регулярном резервировании ценных данных также не стоит, поскольку мониторинговые утилиты, как правило, удачно прогнозируют выход диска из строя по вине «механики» (согласно статистике компании Seagate, из-за механических компонентов выходят из строя около 60% HDD), но они не в состоянии предсказать гибель накопителя вследствие неполадок с электронными компонентами диска.

    05. 08.2017

    Блог Дмитрия Вассиярова.

    SMART hdd показания — что это и для чего?

    Здравствуйте, друзья. Хотели бы вы заглянуть в будущее и узнать, когда жесткий диск вашего компьютера выйдет из строя? Это возможно, причем благодаря не прорицателям, а ученым, которые разработали технологию SMART hdd. Теперь диск будет под вашим пристальным контролем.

    Следить за его состоянием крайне важно, ведь на винчестере, как правило, хранится информация, копящаяся годами. Часты случаи, когда жесткий диск внезапно для своего владельца ломается и восстановить файлы невозможно.

    Чтобы такого не произошло с вами, ознакомьтесь с данной статьей. Вы узнаете, что такое SMART, кто может ей пользоваться, как это делать и много полезной информации дополнительно.

    Разбор полётов

    Те, кто хоть немного знаком с английским языком, могут подумать, что технология имеет название SMART, потому что «умная». В данном случае такой перевод не уместен.

    Это аббревиатура, расшифровка которой звучит как «self-monitoring, analysis and reporting technology», что в переводе означает «технология самоконтроля, анализа и отчётности».

    Из этого вы и сами можете сделать вывод о ее назначении относительно винчестеров. Но внедрена технология не в каждый из них, а только в те, которые поддерживают протокол SATA. По большому счету, это все современные модели.

    История появления

    Впервые выпущен жесткий диск с подобной технологией в 1992 году компанией IBM. Система имела гораздо меньший функционал, но идея была хороша. Поэтому фирмы Seagate, Quantum, Conner и Compaq разработали свою схожую технологию.

    В дальнейшем последняя из этого списка компания предложила стандартизировать продукт, вследствие чего все перечисленные бренды совместно с Western Digital представили миру технологию SMART HDD.

    Первая версия предусматривала анализ основных параметров винчестеров и вступала в действие только по команде. В разработке второго поколения также участвовала компания Hitachi, подавшая идею самоанализа HDD. В SMART 3 добавлена опция обнаружения дефектов и их исправления.

    Что умеет SMART?

    Выше мы уже немного затронули эту тему, теперь остановимся на ней подробнее. С помощью данной технологии вы можете провести диагностику текущего состояния накопителя. Результаты теста покажут вам:

    • Число переназначенных секторов;
    • Скорость поиска дорожки;
    • Число циклов включения и отключения;
    • Количество выданных при этом ошибок и многое другое.

    Еще из полезных опций SMART можно выделить автоматическую замену не читаемых секторов. Она заносит их в error-log, т. н. таблицу.

    При каждом сканировании производится перепроверка этих ячеек. Если они оказываются исправными, система исключает их из списка, если нет - перемещает их в другой дефект-лист, после чего сектора больше не используются.

    Помимо мониторинга системных составляющих, SMART hdd оценивает и физическое состояние жесткого диска, поэтому и способна предсказать время его выхода из строя. Вы можете посмотреть:

    • Сколько раз перемещалась головка и оборачивался шпиндель;
    • На какой высоте находится головка над поверхностью винчестера и пр.

    Таким образом, если какой-то из физических параметров не соответствует норме, технология оповестит вас об этом.

    Но имейте в виду, что она не способна предусмотреть повреждение винчестера вследствие перепадов напряжения или ударов.

    Необходимое ПО

    Чтобы SMART hdd функционировала, недостаточно иметь лишь поддерживающий ее жесткий диск. Вам дополнительно необходимо установить специальную программу, посредством которой вы будете связываться с ПО, встроенным в контроллер винчестера.

    Данные то вы получить сможете, но расшифровать будет сложно. И вот для этих целей и нужен специальный софт. Чем посмотреть результаты тестов? Приведу несколько примеров:

    Victoria.

    О ней я уже . Один из наиболее популярных вариантов, за пользование которым не придется платить. После запуска утилиты необходимо во вкладке «Standart» выбрать винт для проверки, переключиться на меню «Smart» и нажать кнопку «Get». Здоровье вашего HDD будет показано уровневыми и цветовыми индикаторами.

    Вот официальный линк: //crystalmark.info/redirect.php?product=CrystalDiskInfoInstaller

    Один из наиболее удобных и к тому же бесплатных способов исследовать винт, так как интерфейс простой и можно поменять язык на русский. Выбираете диск в одноименной вкладке вверху, и все его параметры развернутся перед вами ниже.

    Кстати, уже в Windows 7 поддержка SMART hdd внедрена в оснастку Управления компьютером. В частности, Disk Check - это основной сборщик информации о состоянии системы.

    Расшифровка результатов

    Система сохраняет информацию в шестнадцатеричном виде, именуемом как raw value («сырые значения»). Данные форматируются в параметр value, отображающий надежность винчестера в соответствии с эталоном.

    Оценка производится, в основном, по шкале от 0 до 100, но некоторые пункты измеряются в диапазоне от 0 до 253. Высокая цифра указывает на нормальное состояние, а низкая - на возможность скорой поломки. Если результат меньше минимума, при котором изготовитель винта гарантирует его безотказную работу, значит, узел вышел из строя.

    Как это выглядит?

    Программа выдает результаты в виде таблицы, разделенной на несколько обязательных полей:

    • ID (Num) - идентификационный номер параметра;
    • Name - его описание;
    • VAL - цифра, отображающая состояние диска (о чем говорилось выше);
    • Wrst (Worst) - худшее значение value за всю историю вашего харда;
    • Thresh (Threshold) - число, достигнув которого винт выйдет из строя.

    Атрибуты SMART

    В списке «Name» вы найдете множество атрибутов, каждый из которых отвечает за определенный параметр харда. Все из них перечислять долго и ни к чему. Рассмотрим, на что обращать внимание главным образом:

    • (5) Reallocated Sector Count. Показывает количество переназначенных ячеек на вашем HDD.
    • (7) Seek Error Rate. Здесь вы можете узнать, как часто при позиционировании блока магнитных головок (БМГ) происходят сбои.
    • (11) Recalibration Retries. Выдает число попыток калибровки БМГ, которые не увенчались успехом.
    • (184) End-to-End error. Говорит о количестве ошибок в буфере накопителя.
    • (187) Reported Uncorrectable Error. Сколько ошибок микропрограмма устройства не смогла исправить.
    • (191) G-sense error rate. Рассказывает, сколько раз возникли неполадки в работе винта из-за ударов. Параметр определяется внутренним акселерометром.
    • (197) Current Pending Sector Count. Показывает нестабильные сектора, которые вскоре могут прекратить работу.
    • (198) Uncorrectable Sector Count. Переводится как счетчик некорректируемых ошибок.
    • (199) UltraDMA CRC Error Count. Подсчитывает сбои, произошедшие при передаче данных от диска компьютеру. Если их число растет, необходимо заменить кабель.

    Кстати, нередко система обнаруживает сбойные сектора не из-за устаревания винчестера, а по причине внезапного выключения питания или дефекта в кабеле. Но на деле эти блоки вполне работоспособны. В таких случаях можно выполнить сброс атрибутов, но этот процесс лучше доверять специалистам.

    Варианты тестирования

    Система SMART может выполнять тесты нескольких видов:

    • Короткий (Short). Длится примерно 2 минуты. Выполняется проверка электрики, механики и производительности на чтение.
    • Длинный/расширенный (Long/extended). Время выполнения: 2-3 часа. Производится оценка поверхности винчестера.
    • Выборочный (Selective). Необходим для исследования отдельных составляющих накопителя.
    • Тест транспортировки (Conveyance). Не занимает много времени. Нужен для анализа состояния устройства после перевозки от поставщика к пользователю.

    На этом всё.

    Пусть результаты ваших проверок будут положительными.