TheVITALI, так и при ваших объемах, и при паттерне использования нет сильно большой проблемы дедуплицировать вручную - одного запуска раз в полгода хватит. Запускать чаще будет без толку.
To4kaTitAN, как раз пятерка очень даже нормальное решение.
Насчет bcache - он требует форматировать раздел. Гораздо перспективнее выглядит lvmcache, хочешь включай, хочешь отключай. Результаты изумительные - дома планирую тоже вкрутить, а то все на работе и на работе...
Железный рейд привязывает, это факт. Но если железка уже есть? И старые (относительно) контроллеры сейчас стоят очень дешево, часто дешевле аналогичных SATA HBA. mdadm + LVM + ext4 это самый мейнстрим, хотя xfs очень хороша для одиночных и неуменьшаемых разделов. Для себя я еще btrfs использую, но клиентам ставлю только если очень просят.
По поводу размеров рейда и дисков более чем X TB... RAID5 из 5 дисков по 4 Тб (WD RE) инициализируется (полный ребилд) ровно 1.5 суток. При такой скорости и вероятности URE для данных дисков риск вылета всего массива на горизонте 10 лет не дотягивает даже до 2 десятых процента... Вот если диски медленные, десктопные, без TLER (читай - каждый блок это полный ребилд по вылету всего диска) - тогда дело труба. И вариант с двумя массивами RAID5 с общим Hot Spare также хорош.
И еще в пользу уже RAID6 скажу вот что - RAID10 (1+0 / 0+1) всем хорош, кроме того что по надежности он сравним не с RAID6, а с RAID5 т.к. вылет неудачной пары это такой же конец всему, как и вылет пары из RAID5. В то же время RAID6 выдерживает вылет любой пары. Если бы не пенальти на запись, то RAID6 самый интересный вариант для 6+ дисков и иногда даже для 4-х (но для 4-х RAID10 это чуть ли не классика наравне с RAID5). 50/60-е уровни нет смысла обсуждать, их делают когда очень четко просчитаны все варианты.
P.S. А ведь еще почти никто не вспоминает про такую дивную штуку, как обычные системы четности (в линуксе как пример - snapraid). Из-за того что запись в процессе "ребилда" идет только на чистый диск, то и вылет сектора нефатален, в худшем случае теряются данные только конкретного диска. Лично запускал на 45 дисках где 43 диска это данные, а 2 оставшиеся для хешей (да, это жесть но превышение чтения над записью гигантское) - и там уже были вылеты дисков, все восстанавливалось на ура. Прекрасно работает для архивных, неизменяемых данных. Упирается больше в память, свободное место на дисках четности и требование к одновременной доступности всех дисков и высокой скорости чтения (т.к. по факту она упрется в шину).