본문 바로가기
IT/이슈 및 정보

주요 적용 사례로 알아보는 데이터마이닝(Data Mining)

by ghostzoominn 2020. 9. 10.

「 데이터마이닝, 들어보긴 했지만 설명할 수 없다면... 」

패턴인식(Pattern Recognition), 인공지능(AI), 기계학습(Machine Learning)등 4차산업혁명과 관련된 글 등을 보다보면 '데이터마이닝(Data Mining)'이라는 단어를 쉽게 찾아보실 수 있습니다.

 

정확한 설명없이도 글의 문맥이나 단어의 형태만으로 '데이터로 뭐 어떤 과정을 거쳐 의사결정을 하는것' 정도로 이해하고 넘어가셨을 수도 있지만, 남에게 설명하기엔 부족합니다.

 

본 글을 통해, '데이터마이닝'에대한 정확한 정의와 쉬운 예시를 통해 굳이 외우지 않아도 이해할 수 있도록 도와드리겠습니다.

 

데이터 마이닝

 

「 데이터마이닝, 정의부터 알아봅시다 」

데이터마이닝(DataMining)이란, 대규모로 저장된 데이터 안에서 체계적이고 자동적으로 통계적 규칙이나 패턴을 찾아내는 기법입니다.

 

즉, 의사결정 수단을 위하여 대용량의 데이터베이스로부터 의미있는 규칙과 패턴을 발견하는 기법을 의미합니다.

 

데이터마이닝에서 다루는 데이터베이스는 구조에 따라 구조화 데이터베이스(Structured DB)와 비구조화 데이터베이스(Unstructureed DB)로 구분됩니다.

 

구조화 데이터베이스에서 다루는 정형화데이터란 회원으로 등록 된 고객정보, 가게 매출 등과 같이 일반적으로 정형화된 수치데이터를 의미합니다.

 

반면 비구조화 데이터베이스에서 다루는 데이터는, 웹상의 블로그 또는 SNS의 게시물 등과 같이, 텍스트·문자·그림·영상 등 형태와 구조가 복잡한 데이터를 의미합니다.

 

이러한 데이터마이닝 기법은, 데이터를 통해 패턴과 규칙을 찾아내고, 데이터를 분석하여 의미있는 정보를 추출하는 분야에서 주로 사용됩니다.

 

패턴인식, 기계학습, 인공지능 등이 그 예시라고 할 수 있습니다.

 

다음으로는 데이터마이닝의 어려가지 기법들을 주요 사례를 통해 쉽게 알아보겠습니다.

 

「 주요 적용 사례로 알아보는 데이터마이닝 기법 」

데이터마이닝은 크게 분류, 군집화, 연관성, 연속성, 예측 등의 방법으로 활용되고있습니다.

 

이러한 개념을 사례를 통해 쉽게 이해할 수 있도록 하겠습니다.

 

1) 분류(Classification) : 일정한 집단에 대한 특정 정의를 통한 분류.

  - 경쟁사 및 자사 제품 선호 고객의 분류.

  - 경쟁사에게로 이탈한 고객에대한 분류.

  - 문서의 제목, 내용, 사진 등을 활용하여 문서 종류를 자동으로 분류해주는 시스템.

 

2) 군집화(Clustering) : 구체적 특징을 공유하는 군집을 찾음.

  - 20대 직장인의 구매 패턴.

  - 학업 성취도/능력에 따른 학생의 특징 분석.

 

3) 연관성(Association) : 동시에 발생한 사건들 사이의 관계 정의.

  - 인터넷 쇼핑몰의 장바구니에 동시에 들어가있는 상품들 사이의 연관성 및 관계.

  - 영화/VOD 등 디지털 콘텐츠의 구입에 대한 연관성 분석.

  - 대형 마트의 구매데이터로부터 아기용 기저귀와 맥주가 동시에 판매되는 사실을 확인하고, 이를 판매에 적용.(아기용 기저귀를 사러온 아빠들이 맥주도 함께 구매)

 

4) 연속성(Sequencing) : 특정 기간에 걸쳐 발생하는 관계 규명.

  - 특정 기간 내 동일 상품에 대한 반복 구매 성향 분석.

  - 새 냉장고를 구입한 고객 중 한 달 이내에 새 오븐을 구입하는 비율이 높음.

 

5) 예측(Forecasting) : 대용량 데이터 집합 내의 패턴을 기반으로 한 미래 예측.

  - 유사제품 판매실적을 이용한 신제품의 수요예측.

  - 타 제품을 이용한 신제품의 기능, 성능, 디자인 기획.

데이터마이닝을 통한 유의미한 결과 추출

 

「 [심화] 데이터마이닝에 필요한 기법 」

이번에는 사례들로 알아본 데이터마이닝에서 사용되는 대표적인 알고리즘에대해 알아보도록 하겠습니다.

 

1) 군집화방법에 주로 사용되는 K-means Clustering(K-평균 군집화)은 주어진 데이터를  k개의 클러스터로 묶는 자율학습 알고리즘으로, 각 클러스터와 거리차이의 분산을 최소화 하는 방식으로 동작합니다.

 

 쉽게말해, 몇개의 그룹을 만든 후, 새로운 데이터가 들어왔을 때, 해당 데이터를 분석하여 가장 유사한 그룹으로 배치시키는 알고리즘입니다.

 

2) 분류 및 예측을 위해 주요 사용되는 의사결정나무(Decision Tree)는 데이터를 분석하여 이들사이에 존재하는 패턴을 예측 가능한 규칙들의 조합으로 나타냅니다.

 

 쉽게말해, 어떤 데이터를 분류 및 예측하기위해 질문을 던져서 대상의 범위를 좁혀나가며 정답을 유츄하는 '스무고개 놀이'와 유사한 방식을 동작합니다.

 

이처럼 데이터 마이닝의 정의를 정확히 이해하고, 사례를 통해 데이터마이팅 기법에 대한 분류를 쉽게 이해할 수 있습니다.

댓글