Интеграция Данных

data_monthly2 Служба Integration Services, входящая в SQL Server 2008 R2
является платформой для построения высокоэффективной интеграции данных и для решения задач, связанных с последовательно выполняемыми действиями, включающими операции по извлечению, преобразованию и загрузке (ETL) данных в хранилище. Функциональные возможности службы Integration Services SQL Server 2008 R2 имеют улучшенную производительность, благодаря лучшей поддержке многопоточности в мультипроцессорных системах и высокоэффективным коннекторам доступа к источникам данных сторонних производителей. Платформа Integration Services в SQL Server 2008 R2 версии Enterprise превосходит традиционный процесс ETL благодаря набору адаптеров и преобразований для "добывания" данных, очистки данных и поддержке, близкой к реальному времени, среды окружения Analysis
Services.

В этом разделе будет рассмотрены следующие новые возможности:

  1. Высокоэффективные коннекторы данных
  2. Преобразования типа Fuzzy
    Lookup (Нечеткий Поиск) и Fuzzy Grouping (Нечеткие Группировки)
  3. Преобразования типа Term Extraction (Извлечение Термина) и Term Lookup (Поиск Термина)
  4. Адаптеры Измерение (Dimension) и Обработки Секции (Partition Processing)
  5. Улучшения Интеллектуального анализа данных (Data Mining) в SQL Server Integration
    Services

Высокоэффективные коннекторы данных

Сценарии интеграции данных часто касаются вопросов переноса данных между различными платформами данных. В SQL Server 2008 R2 версии Enterprise есть дополнительные встроенные коннекторы (add-on connectors), которые позволяют устанавливать соединение с более широким диапазоном источников данных, чем когда-либо и которые также обеспечивают улучшенную производительность. Вы можете загрузить коннекторы для DB2 и SAP BI, как часть Microsoft SQL Server 2008 Feature Pack, и коннекторы для SAP R/3 и Siebel eBusiness, доступные в BizTalk® adapter pack 1.0. Attunity, в союзе с Microsoft, создали два высокоэффективных коннектора для БД Oracle и Teradata, которые имеют доступ непосредственно к внутренним буферизованным APIs, что позволяет передавать данные чрезвычайно быстро. Вы можете использовать эти коннекторы, чтобы подсоединиться к источникам данных и получателям данных, во время обработки потока данных, так же, как в случае если бы Вы соединялись с другими источники и получателями. Эти коннекторы доступны для скачивания с узла Microsoft Download Center .

Источник и получатель данных (Oracle) в потоке обработки данных.

Преимущества

Эти коннекторы позволяют службе Integration Services соединяться с различными источниками данных и передавать данные на очень высоких скоростях, позволяя разработчикам создавать пакеты, которые обладают большей гибкостью и лучшей производительностью.

Fuzzy
Lookup (Нечеткий Поиск) и Fuzzy
Grouping (Нечеткие Группировки)

Преобразования Fuzzy Lookup и Fuzzy Grouping службы Integration Services, доступные в SQL Server 2008 R2 версии Enterprise, дают Вам мощь и гибкость, когда приходится иметь дело с «грязными» данными, которые досаждают почти каждой организации. Сегодня компании «переполнены» проблемами получения качественных данных: идентичные двойные записи, орфографические ошибки, сокращения, противоречивая пунктуация, «усечения» и несметное число других проблем с данными. Ищете ли Вы специфического клиента в базе данных «Заказы», объединяете данные в хранилище данных из многочисленных источников, соединяете многочисленные таблицы или базы данных или просто ищите дубликаты в единственном источнике, традиционные методы приведения в соответствие и исправления текстовых данных являются трудоёмкими, дорогостоящими и предрасположены к ошибкам. Fuzzy Lookup и Fuzzy Grouping могут решить любую из этих трудных проблем с качеством данных за очень короткое время. Преобразование Fuzzy Lookup выполняет задачи очистки данных, такие как приведение данных в соответствии со стандартом, исправление данных, приведение в соответствие данных из «несопоставимых» систем и решение проблем пропущенных значений. Fuzzy Lookup позволяет Вам находить соответствия между записями входных данных и чистыми, «стандартизированными» записями в справочной (эталонной) таблице. Процесс нахождения соответствия «эластичен» к ошибкам, которые присутствуют во входных записях. Fuzzy Lookup возвращает самое близкое соответствие и показывает качество соответствия. Преобразование Fuzzy Grouping изучает данные из источника и группирует строки, которые вероятно будут соответствиями. Fuzzy Grouping выбирает наиболее вероятную правильную запись из группы с повторами, которая будет использоваться для того, чтобы «стандартизировать» данные.

Производительность поиска улучшена в SQL Server 2008 R2 за счет сохранения различных вариантов поиска в кэше поиска так, что они доступны для других пакетов или процессов.

Преимущества

В прошлом компании были вынуждены использовать менее функциональные возможности SQL Сервера, системы сторонних производителей или заказные алгоритмы, чтобы справляться с обычными проблемами качества данных. Дни, недели или месяцы были потрачены на разработку решений для поиска соответствия, группировки и исправления данных. Эти же самые проблемы теперь решаются более безошибочно с использованием лишь части того времени, благодаря использованию преобразований Fuzzy Lookup и Fuzzy
Grouping.

Очень интересный пример того, как преобразования Fuzzy Lookup и Fuzzy Grouping могут использоваться, чтобы решить эти обычные проблемы, происходит при объединении данных из несравнимых бизнес-приложений. Компания может купить систему приложений «Выставление счётов» — (Invoicing) и отдельную систему приложений «Управление взаимодействием с клиентами» — CRM (Client Relations Management). У этой компании первоначально может не быть никакой причины объединять эти системы и каждая система «создает» свой собственный набор данных о клиентах (иллюстрация 28). В некоторый момент времени, руководство решает, что необходимо объединить эти системы, однако, имена клиентов могли быть введены не одинаково в каждой из систем. Компания оказывается перед проблемой идентификации «единственного» клиента для каждой группы «двойных» клиентов и «установления соответствия» между личностями в этих системах.

Изолированные системы

Без преобразований Fuzzy Lookup и Fuzzy Grouping, компании могли бы начать с приведения имен и фамилий в строгое соответствие, для того чтобы «соединить» клиентов из «изолированных» систем. Это могло привести к «обособленным» клиентам, где, например, "John Doe", возможно, был зарегистрирован в системе Invoicing и "John Do" в системе CRM (иллюстрация 29).

В дальнейшей деятельности компании, они становятся двумя различными клиентами, что может привести к неправильному выставлению счета, информации по неплатежам, проблемам взаимодействия с клиентом и так далее. Позднее компании разработали правила регистрации клиентов, реализованные в тысячах строк программного кода, чтобы сопоставить вместе этих клиентов. Этот подход был трудным для совершенствования и управления и часто приводил к "ручному подходу", который включал в себя, «сделанные вручную», повторный просмотр и подтверждение правильности многочисленных «близлежащих» соответствий.

«Связанные» системы с несоответствующим Джоном До

С появлением SQL Server 2008 R2 версии Enterprise и преобразованиями Fuzzy Lookup и Fuzzy Grouping, проблема соответствия данных решается более легко за счет меньшей стоимости, меньшего времени и лучшего качества. Скажите «до свидания» тем тысячам строк кода — внутри пакета Integration Services, теперь клиенты из обеих систем могут быть сгруппированы вместе при использовании преобразования Fuzzy Grouping. Вы не только видите, какие записи будут соответствовать другим, Вы также видите качество соответствия и можете разработать автоматизированную реакцию системы, основанную на индикаторах «уверенности» и подобия. Теперь результат это единственная группа клиентов, которые могут быть сопоставлены между системами Invoicing и CRM. (иллюстрация 30).

«Связанные» системы с Нечетким Поиском (Fuzzy Lookup) и Нечетким Группированием (Fuzzy Grouping)

Fuzzy Lookup и Fuzzy
Grouping полезны во многих деловых сценариях, включая реализацию программ проверки орфографии, зависящих от конкретной предметной области, заполнение не полностью заполненных форм в приложении, удаление «копий» в интегрированных системах и обнаружение других «трудноуловимых» связанных данных. С использованием преобразований Fuzzy Lookup и Fuzzy
Grouping, решение проблемы «грязных» данных стало значительно проще. При создании решений, которые используют эти возможности SQL Server 2008 R2 версии Enterprise, Ваша организация повысит качество процессов очистки данных, наряду с уменьшением времени на разработку, требуемого для решения этих задач. При сочетании SQL Server 2008 R2 версии Enterprise и небольшого количества творческого потенциала, небо — предел в том, как Вы можете лучше устанавливать соответствие, отделять и очищать достоверные данные.

Преобразования Term
Extraction (Извлечение Термина) и Term Lookup (Поиск Термина)

В Enterprise версии SQL Server 2008 R2 службы Integration Services, у Вас в распоряжении есть мощные инструментальные средства, позволяющие классифицировать термины и осуществлять их поиск в документах и текстовых строках. Преобразования типа Term Extraction и Term Lookup превращает Ваш процесс преобразования данных в инструмент "добычи" текстовых данных. Преобразование Term Extraction (Извлечение Термина) используется, чтобы «вытащить» распространённые термины из «области определения» свободного текста или документов, хранящихся в текстовых столбцах и сохранить эти термины в эталонной справочной таблице. Преобразование Term Lookup (Поиск Термина) ищет соответствия между терминами, извлеченными из текста во входном столбце преобразования с терминами в эталонной справочной таблице (которые возможно были собраны, с использованием преобразования Term Extraction). Затем преобразование Term Lookup считает количество раз, которое термин из поисковой таблицы встретился во входном наборе данных и записывает полученную итоговую сумму вместе с термином из эталонной справочной таблицы в столбцы выходных данных преобразования. В результате этого получается текст или документы, систематизированные согласно их содержанию и «родственным» терминам.

Преимущества

Преобразования Term Extraction и Term Lookup могут быть использованы для того, чтобы решить все имеющиеся виды требований к поиску и индексации в обычном тексте. Например, много компаний регулярно получают тысячи сообщений по электронной почте, адресованные службе поддержки клиентов. С такими большими объемами сообщений, как могут компании, ориентированные на работу с клиентами, распределять по категориям, отдавать предпочтения и быть усердными, чтобы не пропустить важные почтовые сообщения?

Ручная обработка и распространение электронной почты

Обычно трудно ответить своевременно на сообщения электронной почты отзывов клиента. Человеку или группе людей, возможно необходимо отфильтровать текст сообщений и отправить их соответствующим отделам, что может потребовать много времени. Преобразования типа Term Extraction и Term Lookup могут быть использованы, чтобы автоматизировать эту, не оправдывающую ожидания, задачу. Преобразование Term Extraction извлекает существительные и именные группы из типичных почтовых сообщений, полученных в различных категориях. Это способствует созданию эталонного справочного набора терминов из почтовых сообщений, которые Вы получили. Так как эталонные термины извлечены, преобразование Term Extraction может определить оценку для указания их важности. Этот эталонный набор терминов сохранятся в таблице SQL сервера, в которую Вы легко можете добавить термины, удалить термины и управлять оценками терминов. После того, как Ваш эталонный набор терминов создан, ночное пакетное задание обрабатывает клиентские отклики из сообщений электронной почты относительно эталонного набора, должным образом распределяет их по категориям и направляет их соответствующему человеку или отделу, основываясь на ключевых словах. Например, все почтовые сообщения с высокими значениями совпадений для слова "платеж" или "цена" направляются в отдел выставления счетов.

Преобразования Term Extraction и Term Lookup могут быть использованы с любым типом текстовых данных, что делает их мощным инструментом для управления фильтрацией резюме, RSS рассылками, юридическими документами или для любых решений по «добыче» текстовых данных, которые Вы только можете себе представить.

Адаптеры Partition (Измерения) и Partition Processing (Обработки Секций)

Адаптеры Dimension (Измерение) и Partition Processing (Обработка Секций), предлагают Вам очевидное преимущество для анализа данных предприятия, близкого к реальному времени. При использовании адаптеров Dimension и Partition Processing службы Integration Services SQL Server 2008 R2 версии Enterprise, для получения результатов обработки данных, Вы можете «затолкать» данные непосредственно в секцию или измерение службы Analysis Services сервера SQL Server 2008 R2 версии Enterprise, чтобы обновить Ваши кубы последними «свежими» данными, которые обеспечивают среду для анализа, приближенную к реальному времени.

Преимущества

Многие из нас сталкиваются с проблемой обработки постепенно увеличивающихся объема обновлений наших измерений и секций в пределах постоянно сжимающегося «окна» обслуживания. Эта проблема может быть составной, когда Вам требуется загружать данные из XML-файлов, неструктурированных «плоских» файлов, унаследованных «старых» баз данных майнфреймов и реляционных баз данных OLTP в информационное хранилище (иллюстрация 33). Возможно, Вы перемещаете данные из Вашего хранилища в другую промежуточную (staging) базу данных просто потому, что Вашим данным требуется дополнительная очистка перед созданием куба. Вы можете столкнуться с другими неподдерживаемыми источниками данных, наполняющими Ваши секции (partitions) или измерения службы Analysis Services, которым снова потребуется отдельная промежуточная база данных до загрузки их в куб. Однако, если бы был способ устранить целиком весь шаг из этого процесса, то данные в «среде» окружения службы Analysis Services были бы более актуальными, что в результате привело бы к лучше информированным и более верным управленческим решениям от единственной, доверяемой платформы анализа. К тому же, Вы больше не были бы обязаны управлять отдельной «средой» окружения базы данных просто, чтобы заниматься промежуточной обработкой данных до загрузки их в куб.

Получатели данных, обработанных адаптерами Dimension и Partition Processing службы Integration Services SQL сервера делают именно это — удаляют весь шаг из процесса обновления хранилища и сохраняют его близким к реальному времени. Получатели данных, обработанных адаптерами Dimension и Partition Processing помещают данные непосредственно в поток обработки данных Dimension или Partition Processing, избавляя от необходимости сначала загружать данные в промежуточную «среду» окружения. В результате этого Ваши измерения и кубы могут быть обновлены одновременно с обработкой потока данных SSIS и намного приблизить верный анализ к реальному времени.

Например, у Вас есть сетевой Интернет-магазин бакалейных товаров, который старается изо всех сил, чтобы поддержать надлежащую поставку бакалеи через множественные центры распространения. Чтобы получить прибыль, Вам необходимо иметь высококачественную информацию, близкую к реальному времени, от каждого дистрибутивного центра о том, что покупают клиенты и когда они это покупают. Ваш, отнимающий много времени, происходящий каждую ночь, процесс перемещает ежедневные данные о покупках и отгрузках из дистрибутивных центров в сложное реляционное хранилище данных, находящееся в центральном офисе, после чего данные подвергаются промежуточной обработке, затем очищаются и в конечном итоге происходит обновление кубов. В этой ситуации чувствительные ко времени управленческие решения могут быть основаны на «несвежих» данных. При использовании единственного пакета службы Integration Services SQL сервера Вы теперь можете поместить данные из баз данных дистрибутивных центров проходящие через процесс очистки непосредственно в секцию и измерение. Вы удалили долго выполняющийся шаг, перемещающий данные в промежуточную область, что в достаточной степени ускорило время Вашего процесса и дало Вам возможность выполнять обновления ежечасно и получать наиболее новые и безошибочные достоверные данные о Ваших поставках и продажах. При использовании получателей данных (destinations), обработанных адаптерами Dimension и Partition Processing службы Integration Services SQL сервера 2008 R2 версии Enterprise, Вы можете обновлять свои кубы более часто. Информация поступает к соответствующим менеджерам более быстро, так что они могут лучше управлять поставками и учетом товара. Любое количество бизнес-моделей могут извлечь выгоду благодаря быстро доставляемым, обновляемым и достоверным данным предприятия. Когда компании, такие как сетевые бакалейные магазины, инвестиционные фирмы, торговые компании или изготовители получают свои данные более часто, они принимают лучшие, более обоснованные решения и это оказывает реальное влияние на получение чистой прибыли.

Улучшения Data Mining (Интеллектуального анализа данных) в службе Integration Services SQL сервера

Интеллектуальный анализ (поиск закономерностей) данных (Data Mining) стал важным инструментом в век информации. Data Mining изначально велся большими организациями, способными расходовать необходимые денежные средства, чтобы сделать эти огромные вложения в сферу ИТ. Начиная с выпуска версии SQL Server 2008, интеллектуальный анализ данных стал возможным и доступным инструментом для компаний любых размеров. Служба Integration Services SQL сервера 2008 R2 версии Enterprise, включает несколько удобных в работе инструментальных средств, для осуществления сложных стратегий поиска закономерностей в данных, чтобы поддержать Ваш бизнес и предприятие. SQL сервер 2008 R2 версии Enterprise включает «обучаемую» модель data mining (Data Mining Model Training) для получателя данных (destination) и задание выполнения запроса к data mining (Data Mining Query task).

С применением Data Mining Model Training для получения результатов, модель поиска закономерностей данных может быть «обучена» и непосредственно сразу сохранена вместе с остальной частью архитектуры потока данных службы Integration Services. Задание выполнения запроса к data mining (Data Mining Query
task) запускает на выполнение запросы предсказания (prediction), основанные на моделях поиска закономерностей данных встроенных в службу Analysis Services. Запрос предсказания создает предсказание для новых данных путем использования моделей поиска закономерностей данных. Архитектор ETL может использовать поддержку поиска закономерностей данных в службе Integration Services, чтобы создавать процессы, которые включают поиск закономерностей данных непосредственно в поток данных. Единственный пакет службы Integration Services может обновить Вашу базу данных, обучить модель поиска закономерностей данных, получить предсказания из запросов поиска закономерностей данных и потом автоматизировать процесс обработки «откликов» данных для получения результатов предсказания.

Преимущества

Есть много различных вариантов использования в бизнесе этих инструментальных средств поиска закономерностей данных службы Integration Services. Эти варианты использования включают рекламу, созданную для определенных клиентов, изучение определенной продукции или продукта и любой другой сценарий поддержки принятия решения, где Вы можете захотеть автоматизировать получение ответа, основанного на предсказании. Классический пример поиска закономерностей данных для сайтов электронной коммерции теперь может быть осуществлен быстро и легко, используя службу Integration Services SQL сервера 2008 R2 версии Enterprise, при объединении результатов выполнения компонентов Data Mining Model Training и Data Mining Query task в рамках обычного процесса ETL.

Когда клиент просматривает Ваш веб-сайт, Ваше приложение может проследить и записать его перемещения по сайту, объекты поиска и сделанные покупки. Единственный пакет службы Integration Services выполняет компонент Data Mining Model
Training, чтобы обновить модель поиска закономерностей данных, основанную на данных, собираемых каждый день. Этот же самый пакет выполняет задачу Data Mining Query
task по отношению к Вашей модели, чтобы создать предсказание о количестве продуктов, которые могут быть куплены, что может быть использовано Вашей системой учета товаров, чтобы иметь в распоряжении соответствующее количество различных продуктов. Вы также можете использовать этот же самый пакет, чтобы автоматизировать процесс создания «специально настроенной» последующей реакции для тех покупателей, которые будут поощряться за дополнительные покупки продуктов, определенных на основании результатов запроса поиска закономерностей данных, который связывает их текущие покупки с другими продуктами, которые могут их заинтересовать.

Компоненты Data Mining Model Training и Data Mining Query task не только поддерживают поиск закономерностей данных в пределах службы Integration Services SQL сервера 2008 R2 версии Enterprise, но также упрощают Ваш процесс разработки и реализации, благодаря удобным в использовании интерфейсам, находящимся непосредственно в пределах, существующих у Вас пакетов службы Integration Services SQL сервера.

Виктор Попов

Интеграция Данных: 3 комментария

  1. Уведомление: Интеграция Данных (SQL Server 2008 R2) – Programmer's blog

Добавить комментарий

Ваш e-mail не будет опубликован. Обязательные поля помечены *

Я не робот.