SDP Greenplum

Продукт
Название базовой системы (платформы): VMware Tanzu Greenplum
Разработчики: Сбербанк
Отрасли: Финансовые услуги, инвестиции и аудит
Технологии: СУБД

2022: Сбер строит «уникальную в мировом масштабе» big-data-инфраструктуру на СУБД Greenplum

Сбер создаёт команду для разработки продукта, построенного на базе СУБД Greenplum. Перед разработчиками стоят амбициозные цели – «построить уникальную в мировом масштабе инфраструктуру по хранению и обработке данных» на базе этой СУБД, заявлено в описании вакансий под этот проект на рекрутирговом портале HH[1].

Команда решает задачи интеграции СУБД Greenplum с сервисами корпоративной аналитической платформы Сбера, построения инфраструктуры хранения для самого большого в России хранилища данных с использованием технологии Greenplum. Помимо этого, перед командой стоит «амбициозная задача по разработке собственной сборки СУБД с использованием Open Source решений», сказано в том же источнике.

«
Наша команда ведёт разработки собственных сборок СУБД с использованием различных Open Source решений, в том числе Greenplum. Отличительная особенность нашей сборки SDP Greenplum - это возможность обработки огромных массивов данных объёмом более 1 ПБ одновременно большим количеством пользователей, - заявили TAdviser в Сбере.
»

В Сбере ведутся разработки собственных сборок СУБД с использованием различных Open Source решений (фото - Виталий Белоусов/РИА «Новости»)

СУБД Greenplum – это быстро развивающийся продукт в классе MPP (массово параллельных систем) с открытым исходным кодом. В основе архитектуры Greenplum лежит ядро PostgreSQL, но ключевая задача Greenplum – это работа с аналитической нагрузкой, в то время как PostgreSQL – это вертикально масштабируемая СУБД, «заточенная» преимущественно под онлайн-транзакции.

Направлением Greenplum в Сбере занимается команда Дмитрия Доброва, главного эксперта по технологиям департамента управления данными (SberData). В SberData создают централизованное хранилище данных всего Сбера: это более 350 источников данных и 100+ ПБ информации. Масштабирование и наведение порядка в сервисе обслуживания медоборудования — опыт компании Медсервиспро

Добров ранее в этом году рассказывал на вебинаре[2], что в области хранения данных, в частности, в Сбере используются три основных технологии – Hadoop, PostgreSQL и Greenplum. В банке разрабатываются собственные сборки на базе каждой из них. На базе собственного форка PostgreSQL в Сбере уже построено много решений. Есть также SDP Hadoop – собственная сборка фреймворка Hadoop для решения задач обработки, хранения и анализа больших объемов данных.

Как пояснял Добров, SberData на базе открытых исходников создает свой корпоративный продукт Greenplum, добавляя надёжности, делая его более управляемым.

«
Один из минусов Open Source – он обычно хорошо работает в ядровой составляющей, а дальше всё держится на энтузиастах, которые его берут и начинают «прикручивать» какие-то фишки для мониторинга, для надёжного, доступного решения, для бэкапирования. Здесь наша роль. Мы берём Greenplum и начинаем его дорабатывать, строим экосистему вокруг него, - рассказывал главный эксперт по технологиям департамента управления данными Сбера.
»

Это и система управления, и система безопасности – очень важная для Сбера часть, система бэкапирования, disaster recovery.

Также, например, команда SberData работает над многопоточностью, поскольку Greenplum – это кластерное решение. По словам Доброва, за счёт распределённой структуры задачи дата-сайентистов решаются очень быстро, анализ моделей на Greenplum происходит за короткое время за счёт того, что работа с данными происходит фактически там, где они лежат.

Самым интересным в Greenplum Добров называет аналитический AdHoc, позволяющий аналитику, знающему SQL, но не обладающему знанием «фишек» в области матанализа, дата-сайенс и каких-то моделей, быстро получать результаты на больших объёмах структурированных данных. Например, быстро сделать отчёт или какой-то вывод. Таким образом, можно принимать решения на базе простой операции на больших объёмах данных.

Примечания



СМ. ТАКЖЕ (2)


Подрядчики-лидеры по количеству проектов

За всю историю
2022 год
2023 год
2024 год
Текущий год

  SAP CIS (САП СНГ) (38)
  Softline (Софтлайн) (35)
  РДТЕХ (33)
  BeringPro (БерингПойнт) ранее BearingPoint Russia (28)
  ФОРС - Центр разработки (25)
  Другие (755)

  Ред Софт (Red Soft) (1)
  InnoSTage (Инностейдж) (1)
  Netrika (Нетрика) (1)
  Сбербанк-Технологии (СберТех) (1)
  Nexign (Нэксайн) ранее Петер-Сервис (1)
  Другие (20)

  Arenadata (Аренадата Софтвер) (3)
  Тантор Лабс (Tantor Labs) (3)
  ФОРС - Центр разработки (2)
  Философия.ИТ (1)
  GlowByte, ГлоуБайт (ранее Glowbyte Consulting, ГлоуБайт Консалтинг) (1)
  Другие (16)

  Arenadata (Аренадата Софтвер) (7)
  TData (ТДата) (5)
  GlowByte, ГлоуБайт (ранее Glowbyte Consulting, ГлоуБайт Консалтинг) (2)
  Диасофт (Diasoft) (2)
  Сбербанк-Технологии (СберТех) (2)
  Другие (19)

  Arenadata (Аренадата Софтвер) (3)
  Газинформсервис (ГИС) (1)
  Navicon (Навикон) (1)
  VK Tech (ВК Технологии) (1)
  Другие (1)

Распределение вендоров по количеству проектов внедрений (систем, проектов) с учётом партнёров

За всю историю
2022 год
2023 год
2024 год
Текущий год

  Oracle (44, 179)
  SAP SE (6, 178)
  Microsoft (23, 142)
  PostgreSQL Global Development Group (14, 135)
  Постгрес профессиональный (ППГ, Postgres Professional) (6, 43)
  Другие (268, 276)

  PostgreSQL Global Development Group (4, 9)
  Постгрес профессиональный (ППГ, Postgres Professional) (2, 6)
  VK Tech (ВК Технологии) (2, 3)
  Arenadata (Аренадата Софтвер) (3, 2)
  Oracle (2, 2)
  Другие (9, 9)

  PostgreSQL Global Development Group (3, 12)
  Постгрес профессиональный (ППГ, Postgres Professional) (1, 6)
  Apache Software Foundation (ASF) (3, 4)
  Arenadata (Аренадата Софтвер) (3, 3)
  Тантор Лабс (Tantor Labs) (2, 3)
  Другие (8, 10)

  PostgreSQL Global Development Group (4, 13)
  Arenadata (Аренадата Софтвер) (3, 9)
  VMware (2, 9)
  Постгрес профессиональный (ППГ, Postgres Professional) (2, 6)
  TData (ТДата) (2, 4)
  Другие (7, 12)

  Arenadata (Аренадата Софтвер) (3, 5)
  PostgreSQL Global Development Group (2, 2)
  Газинформсервис (ГИС) (1, 1)
  Другие (0, 0)

Распределение базовых систем по количеству проектов, включая партнерские решения (проекты, партнерские проекты)

За всю историю
2022 год
2023 год
2024 год
Текущий год

  Oracle Database - 143 (106, 37)
  PostgreSQL СУБД - 135 (83, 52)
  Microsoft SQL Server - 135 (104, 31)
  SAP NetWeaver Business Warehouse (SAP BW/4HANA) - 103 (103, 0)
  SAP HANA (High Performance Analytic Appliance) - 76 (72, 4)
  Другие 76

  PostgreSQL СУБД - 9 (2, 7)
  Oracle Database - 3 (2, 1)
  Tarantool Платформа in‑memory вычислений - 3 (2, 1)
  VMware Tanzu Greenplum - 2 (0, 2)
  SAP NetWeaver Business Warehouse (SAP BW/4HANA) - 1 (1, 0)
  Другие -5

  PostgreSQL СУБД - 12 (3, 9)
  ClickHouse - система управления базами данных (СУБД) - 2 (2, 0)
  Apache Kafka - 2 (2, 0)
  Apache Hadoop - 2 (1, 1)
  VMware Tanzu Greenplum - 1 (0, 1)
  Другие -7

  PostgreSQL СУБД - 13 (6, 7)
  VMware Tanzu Greenplum - 8 (0, 8)
  RT.Warehouse СУБД - 3 (3, 0)
  Diasoft Digital Q.Database - 3 (3, 0)
  RT.WideStore СУБД - 3 (3, 0)
  Другие -11

  VMware Tanzu Greenplum - 5 (0, 5)
  PostgreSQL СУБД - 2 (1, 1)
  Apache Hadoop - 1 (0, 1)
  Другие -7