Как работает виртуальный дата-центр и сколько это стоит. Поговорили с директором GagarinHub

  • Александр Лычавко
  • 4 июля, 2023 09:10
Как работает виртуальный дата-центр и сколько это стоит. Поговорили с директором GagarinHub

Виртуальные дата-центры — популярный во всем мире сервис. У всех на слуху облачные сервера Amazon или Google, но и в России есть крупные компании вроде «Яндекса». Инновационный подход предлагает компания GagarinHub из Москвы, которая строит ЦОД в городе Александрове Владимирской области. Она предоставляет серверы на иммерсионном охлаждении, — и это крупнейший в стране проект такого уровня. Директор компании Константин Михалкин рассказал Ultramining, чем отличается их подход, сколько стоят услуги, как экономить на аренде серверов и какая самая большая опасность поджидает клиента виртуальных ЦОДов.

— Что такое виртуальный ЦОД, есть ли у него какое-то отличие от облачного сервера?

— Виртуальный дата-центр – это сервис-провайдер, который предоставляет вычислительные мощности по требованию. Виртуальный дата-центр — это тот же облачный сервер, такой же класс услуг – Infrustructure as a Service, или же Platform as a Service. Услуги, которые предоставляются на базе ЦОДов, ориентированных на облако. Самые известные примеры таких сервисов — Amazon Web Services, Google Cloud Computing, в России — Yandex Cloud, VK Cloud, Selectel.

Клиент выбирает, какой конфигурации виртуальный сервер ему нужен, в каком количестве, — хоть от одной единицы и вплоть до тысяч. В личном кабинете запускает и сразу же по требованию получает этот готовый объем, сконфигурированный под его задачу. При этом не нужно привлекать системных администраторов. То есть, услуга изначально сконфигурирована так, что можно запустить собственный сервер быстро, просто — и при этом получить надежную услугу.

Без каких-либо специальных знаний клиент получает высокий уровень безопасности вплоть до соблюдения требований PCI DSS и 152-го федерального закона по персональным данным.

Наше железо рассчитано примерно на пять лет работы, хотя, возможно, что-то придется обновлять уже раньше, потому что постоянно выходят новые, более мощные процессоры и видеокарты. Тогда и мы будем добавлять новые линейки, ориентированные на вычисления, на GPU-вычисления, на объемы памяти. Пока что мы используем актуальные линейки и модели: это серверные процессоры Intel Xeon, оперативка DDR4, SSD обычные и формата М2, а также широкая гамма видеокарт NVidia: серверные А100 и десктопные RTX4090. Несмотря на санкции, достать необходимое оборудование пока получается.

иммерсионное охлаждение

В нашем дата-центре, к слову, процессится блокчейн, поэтому мы имеем право использовать десктопные видеокарточки, что во многих дата-центрах запрещено. Да, производитель NVidia запретил использовать десктопные GPU в дата-центрах. Это связано с пожаробезопасностью: у них более высокое энергопотребление по сравнению с серверными — примерно 450 Вт против 90-150 Вт. И если их напихать 8-12 штук в сервер, то обычная стойка с таким не справится. Но, во-первых, с иммерсионным охлаждением таких проблем нет, а, во-вторых, в этих же правилах есть исключение для дата-центров, которые процессят блокчейн. Так что мы абсолютно легально используем десктопные видеокарты для вычислений с GPU-ускорением.

Полноценный запуск у нас планируется осенью, сейчас мы готовим маркетинговую кампанию. В этом бизнесе для клиента очень важно доверие. Показать, что мы работаем, что мы компетентны в том, что делаем, что у нас достаточные ресурсы для обслуживания потребностей клиента. Поэтому сейчас в закрытом режиме мы нарабатываем кейсы с каждым клиентом, выстраиваем процессы поддержки и клиентского сервиса, дорабатываем личный кабинет с панелью управления сервисом. Число клиентов у нас пока не перевалило за сотню, в основном это бизнес-клиенты и некоторое число индивидуальных разработчиков.

В перспективе планируем также обслуживать и государственные задачи, у них специальный уровень требований, отдельная сертификация по безопасности. Наша платформа однозначно готова, чтобы решать такие задачи, но сертификация имеет свою нюансы, поэтому приоритет пока другим областям, но все же такое направление прорабатывается.

В планах на 2023-2024 годы прописан такой объем инвестиций, чтобы войти в первую тройку по всей России.

gagarinhub
Виртуальный дата-центр GagarinHub

— Чем ваш ЦОД отличается от других аналогичных решений?

— Наше основное отличие от других дата-центров заключается в том, что мы строим все не «на воздухе», а в иммерсии. То есть, это жидкостное охлаждение: задействованы специальные ванны, куда погружаются сервера. ЦОД выглядит как что-то футуристическое: стоят иммерсионные ванны, в них погружено оборудование, над ними выведена проекция показателей работы каждого сервера. Ванны нам поставляет компания из Подмосковья, они у них собственного производства, компоненты также, в основном, российские. Диэлектрическая жидкость снимает тепло, через теплообменник отдает на внешний контур; во внешнем контуре – вода, которая охлаждается через драй-кулеры и градирни и возвращается обратно.

Мы первые, кто строит публичное иммерсионное решение такого класса. Есть, конечно, небольшие стартапы-облака на уровне прототипов, но масштабный сервис с полным покрытием всех решений в облачных платформах (предоставление платформы базы данных, предоставление вычислений, ускоренные GPU-вычисления, управляемые кластеры Kubernetes, сетевая инфраструктура, объектное хранилище, автоматизация процессов разработки), — мы тут первые.

За счет иммерсионного охлаждения мы получаем более высокую энергоэффективность. У обычных дата-центров коэффициент использования энергии составляет 1,3 — то есть, около 30% электроэнергии расходуется на то, чтобы обслуживать ЦОД. У нас этот параметр варьируется от месяца к месяцу, есть жаркие и холодные периоды, но все равно в среднем коэффициент составляет примерно 1,03, то есть, вхолостую тратится лишь 3% энергии.

Использовать это тепло на какие-то другие полезные задачи мы не стремимся. Там, где мы территориально находимся, отдать тепло некому. Этого тепла даже меньше, чем от майнинговых ферм. Майнинг — это от 3,5 до 7 кВт с одной иммерсионной ячейки, а в нашем случае в одну ячейку помещаются два сервера, и даже при полной пиковой загрузке видеокарт выходит не больше 2 кВт, а сервера без видеокарт отдают и того меньше: не более 500 ватт. То есть, побочного тепла ну совсем немного.

Сами мы работаем от обычного электричества, не «зеленого»; сейчас прорабатываем схему резервного питания от газогенератора.

иммерсионная ванна
Иммерсионная ванна Octava (источник: octava.tech)

— Для чего арендуют ваши сервера, какие задачи можно решать с их помощью?

— Эти дата-центры арендуют под широкий спектр задач, но, забегая вперед, скажу, что практически не используют для майнинга. Самая частая задача – это обучение нейросетей, вторая по востребованности – рендеринг 3D-видео.

Типичный пример решения задачи — это когда запускается машина с несколькими видеокартами, на ней обучается нейронная сеть, через 20-30-40-60 минут она отключается и не запускается до следующей необходимости обучить нейронку.

Мы сейчас находимся на стадии закрытого бета-тестирования, работаем с января, но даже на этой стадии нарастить объем можно буквально в несколько кликов. Сейчас у вас одна виртуальная машина, а если нужны сто, — вы в панели управления за 5 секунд запускаете сто экземпляров точно такой же машины, ничего не настраивая.

Имеет ли смысл арендовать у нас мощности, в частности — видеокарты, чтобы майнить? Экономическая эффективность использования наших GPU для майнинга и для других целей отличается в десятки раз. Видеокарточка при майнинге даст в сутки до 1-1,5 доллара, – а в нашем случае такая прибыль возможна за час аренды. То есть, в рамках нашего проекта майнить намного менее выгодно, чем использовать GPU на что-то другое.

— Сколько стоят услуги вашего ЦОДа и какие принципы тарификации используются?

— Минимальный объем виртуального сервера – это один виртуальный процессор, один гигабайт памяти и пять гигабайт жесткого диска, – это сгодится для домашнего проекта, личного блога или корпоративного сайта с парой тысяч посетителей в сутки, почтового сервера на пару десятков пользователей. А максимум может быть и тысяча виртуальных серверов с десятками процессоров и сотнями гигабайт оперативной памяти.

У нас идет почасовая, а в некоторых случаях и поминутная оплата за потребленные ресурсы. Запускается машина, начинается тарификация. Отдельно считается время использования процессорного ядра, отдельно — время использования оперативной памяти, отдельно — время использование жесткого диска, подключенного к машине. Также тарифицируется отдельно публичный IP—адрес, если он назначается, и прочие элементы инфраструктуры. То есть, у нас система оплаты – Pay-as-you-go: сколько потребил, столько и заплатил, в некоторых случаях даже посекундно. Ваша машинка может проработать хоть одну минуту, и если вы за это время решите задачу — то ровно за это время и заплатите.

тарификация пула

Час работы процессора у нас стоит, в среднем, 85 копеек (почти 1 цент США). Час работы гигабайта оперативки – 30 копеек (0,3 цента), а час работы гигабайта SSD – 1 копейку. Это абсолютно конкурентные цифры по сравнению со всеми российскими провайдерами. Переезжать в Иркутскую область, где очень дешевая электроэнергия с ГЭС, в нашем случае смысла нет, потому что наша инфраструктура во многом зависит не столько от электричества, сколько от инженеров, которые обслуживают ЦОД, от каналов интернета и близости к конечному пользователю. Мы планируем развиваться и строить новые ЦОДы на юге России, на Дальнем Востоке, но строить их там, где ток подешевле — не совсем правильно, потому что себестоимость электричества в общей себестоимости наших услуг составляет какие-то маленькие проценты. В отличие от майнинга, акцента на низкую стоимость электричества у нас нет.

— Как обеспечивается безопасность работы ЦОДа — физическая и программная?

— В Александрове наша территория занимает 6 тысяч квадратных метров. Одно здание трехэтажное, второе — ангар, третье — высотный ангар, плюс отдельный иммерсионный зал.

На охране дата-центра у нас работает ЧОП, также подключена тревожная кнопка от Росгвардии, они приезжают за полторы минуты после нажатия. К счастью, за все время работы ЦОДа ничего подобного не происходило и, надеюсь, не произойдет. А еще у нас на высоком уровне реализована физическая безопасность: система периметральной охраны, система контроля доступа, биометрический доступ для сотрудников, — все на достаточно высоком уровне.

Клиент, который к нам приходит со своей задачей, получает вычислительный объем с достаточным резервированием, чтобы быть уверенным, что даже если происходит сбой на уровне физического сервера, то его сервис будет по-прежнему работать, как будто ничего не произошло. Все это обеспечивается благодаря системе резервирования. На горячем старте есть резервные мощности, которые запускаются, как только у клиента возникает такая потребность. Аналогичное резервирование у нас выполнено на уровне узлов; а сейчас мы готовимся к запуску еще одного ЦОДа — и тогда резервирование уже будет на уровне региона. То есть, если даже во всем городе Александрове разом перестали работать свет и интернет, то проект по-прежнему продолжит работать, потому что в другом ЦОДе в другом городе точно такая же инфраструктура, готовая в ту же секунду принять на себя нагрузку.

Клиентские виртуальные машины могут быть «размазаны» по разным ячейкам: данные жесткого диска хранятся на одной, виртуальные ресурсы процессора и памяти берутся с другой, сетевая инфраструктура вообще сплошной средой между этими машинами, – вся вычислительная мощность распределена между клиентами. И возникает вопрос: а не случится ли так, что пользователи с одной машины получат доступ к данным с другой, ведь физически они расположены на одном сервере? Нет, не случится: это защищено средствами виртуализации, которые распределяют ресурсы и изолируют их друг от друга; а на аппаратном уровне также закрыт доступ к вычислениям и памяти между машинами, в том числе и между графическими картами. Это буквально вшито в процессоры на уровне набора команд. В отличие от обычных серверов, надежность облачных в десятки раз выше, потому что они резервируются на нескольких узлах, и если в случае сбоя обычный сервер подлежит ремонту-восстановлению, причем данные могут быть потеряны, то в нашем случае ничего подобного не происходит.

охрана дата-центра

— Получается, все совсем безопасно? Неужели никаких рисков для пользователя нет?

— Основной риск для потребителей наших услуг — это опасность неправильно сконфигурировать и запустить проект, из-за чего вместо экономии и эффективности можно получить, наоборот, менее эффективный и более дорогой сервис. Все дело в том, что в облачные решения заложена дополнительная наценка за счет их эффективности. Допустим, у вас небольшой проект, стартап, и если вы правильно используете облачные решения — то вы получаете хорошую экономию и на старте, и в при дальнейшем развитии. Потому что строить собственную инфраструктуру стоило бы вам намного дороже; привлекать администраторов и инженеров тоже стоило бы довольно дорого. А используя облако, вы можете и неплохо сэкономить, и иметь высокую эффективность системы: она будет надежной, отказоустойчивой, масштабируемой, — и вы получите все плюсы.

Но если вы ошибетесь при конфигурировании, не реализуете правильно решения, которые были заложены в потенциал облака, и пойдете по пути обычного сервера, — то вы плюсов не получите, ведь аренда облачного сервера обойдется дороже, чем аренда физического сервера. А вот при правильной архитектуре проекта аренда всей облачной инфраструктуры в комплексе выйдет дешевле.

То есть, если вы рассматриваете облачные сервера как замену серверам физическим — то как раз тут можете проиграть, потому что работа будет менее эффективной. Но если вы пойдете по правильному пути, то получите меньшей ценник на входе и экономию в работе, и при этом сможете эффективно расти по мере роста вашего проекта.

Самый распространенный пример – когда в случае пиковых нагрузок дополнительно запускается нужное количество серверов, они обслуживают возросшую нагрузку, — а потом при снижении нагрузки отключаются. Вы платите за них только в часы их работы в пиковые нагрузки, после чего возвращаетесь к базовой конфигурации и больше ничего не платите. Это и есть тот самый эффект экономии, который достигается при правильной настройке сервиса.

Подписывайтесь на наш telegram-канал — и не пропускайте эксклюзивы!

Поделиться: