본문 바로가기

정보기술의 샘터........о♡/DB & 데이타마이닝

데이타웨어하우스와 데이타 마이닝

데이타웨어하우스와 데이타 마이닝

데미타 마트로 잠자고 있는 보물을 캐낸다.


시장조사 업체인 가트너 그룹이 제시하는 데이타 마이닝과 관련된 필수 작업과 금지 사항

아무리 잘 수집되고 조직돼 있다고 해도 단순히 데이터를 데이터웨어하우스에 저장하는 수준으론 아무 이익이 없다. 이 데이터웨어하우스에서 정보를 가져와 활용할 수 있는 수단을 제공해야만 다양한 이익원을 창출하는 완벽한 데이터웨어하우스라 할 수 있다. 이런 상황에서 데이터 채굴은 거대한 데이터 뭉치에서 의미있는 흐름과 패턴을 추출하는 가장 좋은 방법중 하나로 간주되고 있다.

데이터 채굴 기술은 아직 초기 단계에 불과하다. 그러나 소매, 금융, 건강의료, 제조, 유통, 항공 등 다양한 산업군에서 사내외적으로 수집한 역사적 데이터를 활용하기 위해 이미 데이터 채굴 도구와 기법이 사용되고 있다. 데이터 채굴은 데이터웨어하우스 정보를 ‘거르기’ 위해 패턴 인식 기술과 통계적·수학적 기법을 사용함으로써 분석가들이 중요한 사실이나 관계, 흐름, 패턴, 기대치 등뿐 아니라 다른 방법으론 파악할 수 없는 변칙이나 예외 등을 발견할 수 있도록 돕는다. 또한 데이터를 시각화하거나 데이터를 쉽게 처리할 수 있는 형태로 나타낼 수 있을 뿐만 아니라 기저 데이터웨어하우스의 문제점까지 검사할 수 있다.

데이터 채굴에 대한 수요는 쉽게 현재의 기술과 제품으로 충족될 수 있다. 기존의 대형컴퓨터는 대규모의 데이터 뭉치에 대한 임의적인 다차원 질의를 처리할 능력이 부족했다. 반면 메모리와 처리능력이 대폭 증대된 많은 PC와 웍스테이션의 경우엔 이런 다차원 질의 애플리케이션이 없었다. 따라서 대부분의 분석 절차는 한번에 소규모의 샘플 데이터만 처리할 수 있었으며, 대규모의 분석은 어렵거나 많은 시간이 소요됐다.

그러나 데이터 채굴에 대한 조직적인 접근법으로 인해 이런 장벽을 극복할 수 있는 가능성이 대폭 높아졌다. 다음은 시장조사 업체인 가트너 그룹社가 제시하는 데이터 채굴 방법론이다.


1. 데이터웨어하우스용 후보 데이터베이스 선택과 준비

데이터를 효과적으로 채굴하기 위해선 데이터웨어하우스가 정확하게 구성돼야만 한다. 첫번째 단계는 검토돼야만 하는 데이터베이스들과 요소들을 파악하는 것이다. 가능하다면 수집된 데이터가 대부분의 분석 절차에 의해 필요한 평면 파일 형태로 검색될 수 있도록 생생한 살아있는 데이터 사전을 창조해야만 한다. 이 첫번째 단계는 아주 복잡하기 때문에 만만히 보거나 과소평가해서는 안된다. 일례로 관심을 끌 만한 후보 데이터베이스들은 많은 부서, 하드웨어 플랫폼, 운영체계, 장소에서 운영되고 있을 것이다.

데이터 준비엔 각 데이터에 가치를 부여하고 오류 데이터를 수정하는 등 작업이 포함된다. 나중에 나온 관계형 데이터베이스로 저장된 데이터는 참조 무결성 기술로 인해 데이터의 품질이 상당히 높지만 이보다 앞선 중대형 컴퓨터용 데이터베이스들은 불완전하거나 오류로 가득차 있을 경우도 있기 때문이다. 빠진 데이터를 기입하는 것은 위험할 수 있는데 소규모 샘플을 다룰 때 위험은 더해진다.


2. 데이터베이스 무리짓기와 기능 분석

준비 단계에서 정의된 대규모의 데이터베이스들은 무리짓기(clustering) 기법을 사용해 분리돼야 한다. 이 작업이 끝나면 각 데이터베이스 무리들의 편성에 가장 큰 영향을 미치는 요소들을 발견하고 특정 비즈니스 목표를 달성하기 위해 어느 요소를 포함시킬 것인지 등을 결정하기 위해 더 세부적인 기능 분석을 수행해야 한다. 무리짓기와 기능 분석을 통해 검사해야 하는 요소나 레코드의 수를 조금씩 줄일 수 있다.


3. 도구 선택

데이터 채굴 도구가 많이 나와 있지만 대부분은 불완전하며 기업이 자체 개발한 기법이나 시스템과 결합되도록 통합 작업을 해야만 한다. 따라서 도구나 기술을 구매하기 전에 세심하고 철저한 분석을 거쳐야 한다. 이 분석 과정에서 다음과 같은 중요한 질문에 대해 확실한 대답을 가져야 한다.

  • 한번에 얼마나 많은 실례들을 처리할 수 있는가?

    대형 데이터베이스들을 처리할 수 있다고 광고하는 도구들조차 컴퓨터의 처리능력과 메모리를 넘는 대량의 데이터는 처리하지 못한다. 이것은 PC용 도구들에서 더하다. 이런 제한은 분석가들이 많은 요소들을 평가할 필요가 있을 때 특히 중요하다.

  • 얼마나 많은 사전 조사·처리가 요구되는가?

    일부 고도의 방법론을 사용하는 도구는 극히 한정된 이질적 가치들만을 처리할 수 있다. 따라서 이들 도구는 데이터의 사전 조사와 처리 및 표준화를 요구한다. 여기에 일부 도구는 수치만 처리가 가능하기 때문에 데이터 형태도 문제가 된다. 완벽한 도구는 데이터베이스 접근, 번역, 사전 조사·처리 능력을 함께 제공한다.

  • 사용자는 포괄적인 가설을 표현해 테스트할 수 있는가 아니면 일부 영역에 국한된 일반적 가설만을 표현할 수 있는가?

    특정한 사실이나 레코드들을 가지고 가설들을 테스트함으로써 이들 가설을 실체화할 수 있는 능력이 사용자에게 제공돼야만 한다(상의하달식 분석). 또한 개별적 사실들로부터 가설들을 도출할 수 있는 능력과 함께 사용자들이 ‘만약에’ 방식의 조사를 하기 위해 이들 사실을 수정하려 할 경우 이를 지원하는 능력도 제공돼야만 한다(하의상달식 분석).

  • 규칙, 모델, 결정 구조, 수치를 생성할 수 있는가?

    결과에 대한 설명이 최대 목적이라면 규칙과 귀납 기법이 적절하다. 반면 요소들의 최적 결합이 목적으로 문자적인 설명이 요구되지 않는다면 신경망(neural network)과 프랙탈 기법이 사용돼야만 한다.

  • 새로운 정보가 제공될 때 얼마나 쉽게 데이터 모델을 갱신할 수 있는가?

    발견 도구들은 데이터의 변경 빈도나 시스템상의 입력 속도에 상관없이 모든 데이터를 처리할 수 있는 능력을 갖춰야만 한다. 또한 사용법을 익히기 위해 많은 훈련을 요구하거나 데이터 처리 시간이 긴 도구는 빈번하게 데이터를 변경하는 기업엔 맞지 않다.

  • 해당 기술을 사용하기 위해서는 얼마나 많은 노력과 전문 지식이 필요한가?

    데이터 채굴 관련 도구는 사용자의 조정작업이 거의 필요없는 고도로 자동화된 도구부터 상당한 기술적 지식을 요구하는 수동 도구까지 다양하다. 따라서 해결하려는 문제의 복잡성뿐 아니라 예상되는 사용자와 개발자의 기술 수준에 따라 제품을 선정해야 한다. 대부분의 경우 전문적인 컨설팅을 받는 것이 좋다.


    4. 가설 검증과 지식 발견

    이 단계는 ‘데이터 채굴’이란 용어와 가장 크게 관련돼 있다. 이 과정 동안 가설이 형성돼 테스트되며, 새로운 상관관계가 발견되고 ‘만약에’ 분석이 수행된다. 또한 샘플 크기, 처리 시간, 데이터의 복잡도와 정확도 등 많은 문제점이 드러난다. 데이터 채굴을 수행한 후 나오는 출력물은 사용되는 제품과 기술에 따라 다르며, 종종 규칙이나 상호관계, 예측 모델, 관계 그래프, 결정 구조 등의 형태로 나타난다.


    5. 지식 애플리케이션

    대부분의 경우 발견 과정에서 창출된 테스트된 규칙들은 절차 코드나(규칙이 많이 있고 갱신될 가능성이 높을 경우) 지식 기반 시스템에 직접 추가될 수 있다. 예측 모델은 종종 애플리케이션 코드에 직접 통합될 수 있다. 이것은 C 같이 공통 언어로 예측 모델을 출력해 내는 제품의 경우 특히 손쉽다.

    데이터 채굴은 상당한 인력과 상호작용이 요구된다. 이 과정을 조정하는 메카니즘은 아직은 새로운 대규모 데이터웨어하우스에 있는 무수한 요소와 상호작용을 다루기엔 불충분하다. 상용제품이 사용용이성을 약속하면서 사용자를 유인하고는 있지만 많은 경우 상당한 기술이나 관련 분야의 지식을 요구한다.

    이같은 불충분한 데이터 채굴 과정의 기본 기술에도 불구하고 이 기술을 이용해 발견된 데이터의 가치는 시간에 민감한 분야의 기업에선 아주 높다. 일례로 소매업체나 금융업체의 경우 남보다 1초 빠른 데이터를 가질 경우 서비스 품질을 높이고 고객을 더 많이 유인할 수 있다. 그리고 이 결과는 매출 신장으로 이어질 것이다.