In-memory платформа GridGain® используется компаниями по всему миру для получения, обработки, хранения и публикации потоковых данных для крупномасштабных критически важных бизнес-приложений. Эта функция платформы используется некоторыми из крупнейших в мире банков для обработки, расчетов и соблюдения требований законодательства; телекоммуникационными компаниями для предоставления услуг телефонной связи и доступа в интернет; ритейлерами и онлайн-магазинами для улучшения клиентского опыта в реальном времени; ведущими облачными провайдерами и поставщиками SaaS в качестве основы In-memory вычислений своих предложений. Все эти компании получили возможность принимать и обрабатывать потоки с миллионами событий в секунду в кластере среднего размера.

GridGain интегрирован с основными потоковыми технологиями, включая Apache Camel, Apache Kafka, Apache Spark® и Apache Storm, Java Message Service (JMS) и MQTT для приема, обработки и публикации потоковых данных. После загрузки данных в кластер компании могут использовать встроенные в GridGain библиотеки для массовой параллельной обработки данных, в том числе для параллельных запросов SQL, а также машинного и глубокого обучения. Затем клиенты могут настроить непрерывные запросы, которые выполняют и идентифицируют важные события по мере обработки потоков.

Streaming Analytics

GridGain предоставляет In-memory интеграцию с Apache Spark. Интеграция включает поддержку Spark DataFrames, GridGain RDD API для чтения и записи данных в GridGain как изменяемый Spark RDD, оптимизированный SQL и In-memory реализацию HDFS при помощи файловой системы GridGain (GGFS). Если Spark развернут вместе с GridGain это делает возможным:

  • Доступ ко всем In-memory данным в GridGain, а не только к потоковым
  • Возможность разделять данные между всеми всеми задачами Spark
  • Преимущества In-memory загрузки и обработки данных, которые можно использовать, в том числе, для существенного сокращения времени тренировки моделей машинного или глубокого обучения.