Под обработкой в Deductor Studio подразумевается любое действие, связанное с неким преобразованием данных, например, фильтрация, построение модели, очистка и прочее. Собственно в блоке обработки данных и производятся самые важные, с точки зрения анализа, действия. Наиболее важной особенностью механизмов обработки, реализованных в Deductor Studio, является то, что полученные в результате их применения данные можно опять обрабатывать любым из доступных в системе методов. Таким образом, можно строить сколь угодно сложные сценарии обработки.

Обработка данных

Подобная функциональность очень важна, т.к. при анализе реальных бизнес данных практически всегда приходится выполнять последовательность действий для получения нужного результата. Например, при построении прогноза в самом простом случае, нужно после импорта данных их очистить, трансформировать, построить модель и применить ее для прогноза на несколько шагов вперед. В действительности же сценарии обработки бывают значительно сложнее. В сценариях сохраняются параметры обработки, поэтому для получения результата на новых данных достаточно всего лишь применить в ним подготовленный сценарий.

В Deductor Studio реализован большой набор механизмов обработки, позволяющий решать широкий класс задач анализа.

Механизм обработкиОписание
Настройка набора данныхИзменение названия поля, ширины, метки, типа и вида данных, назначения столбца. Кэширование данных.
Парциальная обработкаЗаполнение пропусков, редактирование аномалий, сглаживание, вычитание шума, вейвлет преобразование. Одни из наиболее часто используемых механизмов очистки данных.
Корреляционный анализОценка зависимости выходных полей данных от входных факторов и устранения незначащих факторов.
Факторный анализПонижение размерности пространства факторов.
Скользящее окноТрансформация временного ряда к скользящему окну. Используется при построении автокорреляционных моделей.
Дата и времяВыделение из дат любого временного интервала (год, месяц, квартал и т.д.).
КвантованиеПреобразование непрерывных данных в дискретные.
Дубликаты и противоречияОбнаружение и фильтрация дубликатов и противоречий
СортировкаСортировка записей в заданном пользователем порядке.
СлияниеОбъединение наборов данных, полученных при помощи различных сценариев обработки.
ЗаменаЗамена данных в выборке по таблице подстановки.
ФильтрацияФильтрация записей в таблице по заданным условиям.
КалькуляторДобавление полей, рассчитанных по заданным формулам.
Группировка/разгруппировкаДва взаимосвязанных метода обработки. Группировка позволяет объединять записи по полям-измерениям, агрегируя данные в полях-фактах. Разгруппировка проводит обратную операцию – разбиение полученных общих цифр в соответствии с рассчитанными пропорциями.
АвтокорреляцияНахождение линейной автокорелляционной зависимости. Метод применяется при обработке временных рядов для обнаружения периодичности, сезонности.
Линейная регрессияКлассический линейный метод решения задачи регрессии.
Логистическая регрессияПопулярный метод построения моделей для случаев, когда выходное поле бинарное.
ПрогнозированиеПолучение прогноза на несколько шагов вперед на основе модели, построенной любым способом. Например, при помощи нейросети или линейной регрессии.
Нейронные сетиМногослойные нейронные сети – алгоритмы обратного распространения ошибки и RProp. Нейросети предназначены для решения задач регрессии и классификации. Это мощный современный самообучающийся механизм, способный решать нелинейные задачи.
Деревья решенийМетод машинного обучения, позволяющий автоматически извлекать из данных закономерности, отображаемые в виде иерархической системы правил, легко интерпретируемых человеком. Метод предназначен для решения задач классификации.
Самоорганизующиеся карты КохоненаМощный самообучающийся механизм кластеризации, позволяющий не только кластеризовать данные, но и отобразить результаты в виде удобных для интерпретации двухмерных карт.
Ассоциативные правилаМетод анализа, позволяющий находить ассоциативные связи событиями. Например, обнаружить, что при покупки товара Х, с определенной вероятностью приобретут товар Y. Иногда этот метод называют анализом потребительской корзины.
Пользовательская модельСоздание аналитических моделей на основании жестких правил и экспертных оценок. Расчет выходных значений по готовым формулам.
СкриптПредназначен для автоматизации процесса добавления в сценарий однотипных ветвей обработки. Аналогом скрипта является функция в языках программирования. Ветвь обработки строится один раз, а затем скриптами выполняются заложенные в ней универсальные обработки.
УсловиеС помощью операции условие можно организовать условное выполнение узлов сценария. При этом если заданное условие не выполняется, то узлы сценария, следующие за данным обработчиком, не будут обработаны.
Команда ОСВызов из сценария любого внешнего приложения, реализующего специфичные, отсутствующие в Deductor, механизмы обработки данных.

Основной акцент в Deductor сделан на самообучающиеся алгоритмы. Данные алгоритмы удачно сочетают в себе мощность математического аппарата с простотой применения. А широкое использование мастеров оказывает дополнительную помощь в освоении современных методов анализа.

Каждый из реализованных механизмов анализа обработки дает ценные результаты, но только их совместное применение и возможность комбинирования обеспечивают совершенно новое качество решений.

www.on-crm.ru

Онлайн CRM система:
- единая база клиентов
- история взаимодействий
- учет продаж

www.kvartiran.ru

Портал - все новостройки СПб
- база новостроек
- поиск квартир
- бронирование квартир

www.on-realty.com

Сервисы для риелторов
- Сайт агентства недвижимости
- База новостроек
- Виджет каталога новостроек

jooble - работа для SEO специалистов
Санкт-Петербург, Полюстровский пр., д. 43А © sinercom.ru, 2024

(812) 385-72-26

@

sinercom@sinercom.ru

wolter-sc

Карта сайта