Извлечение информации

Оценить
(0 голоса)

В хранилищах данных обычно содержится изобилие информации, однако понимание пользователем этой информации может быть ограниченным. К примеру, торговая организация может быть хорошо осведомлена о том, что сезоны отпусков связаны с увеличением активности продаж, однако множество других потенциально полезных фактов может так и никогда не быть принятым на вооружение. Data mining - извлечение информации, или добыча дачных - это процесс обнаружения знаний, или нахождение ранее неизвестных зависимостей данных или аномалий. К широко известным примерам относится открытие того факта, что в супермаркетах мужчины, покупающие пеленки, часто в это же время покупают и пиво. Изучив эту информацию, супермаркет может выбрать место размещения пива около пеленок или наоборот, выставить пиво в одном ряду с пеленками вместе с остальными потенциально интересными предметами между ними. Детали этого примера изучены в интересном изложении Рони Кохави (Ronny Kohavi), доступном по адресу http://robotics.stanford.edu/ -ronnyk/chasm.pdf.

Другим примером является поиск связи между данными пациента и медицинским диагнозом. Вспоминается сообщение о враче-исследователе, жившем в Лондоне в средние века и интуитивно решившем прописать домашний режим жертвам недавней вспышки чумы. Он обнаружил, что почти все из них жили неподалеку or одного колодца. Довольно далеко от этого места жила пожилая женщина-носительница вируса. Дальнейшее исследование медика показало, что женщина очень любила воду из этого колодца и регулярно им пользовалась. Открытие врача спасло много жизней. Добыча данных отнюдь не нова.

Современные методы извлечения информации основываются на изощренных алгоритмах получения связей между группами данных. Технологии включают нейронные сети, деревья решений, ближайшие значения, генетические алгоритмы и правило индукции. Для более детальной информации обращайтесь к изданию Seven Methods for Transforming Corporate Data into Business Intelligence, Васанта Дхара (Vasant Dhar) и Роджера Штейна (Roger Stein), Prentice Hall, 1997. Автоматизация обнаружения тенденций, поведения и ранее неизвестных шаблонов может в итоге привести к значительным преимуществам, извлекаемым организацией.

Подробнее в этой категории: « OLTP Пакетные рабочие нагрузки »
Пакетные рабочие нагрузки
О LAP
OLAP не ориентирована на транзакцию
OLTP
DSS

Добавить комментарий


Защитный код
Обновить