본문 바로가기
데이터 사이언스 공부/개념 정리

연관분석 간단 개념 정리

by 아인슈페너먹고싶다 2022. 10. 31.

 

 

면접 대비 겸 간단 개념 정리 두번째!

 

연관분석에 대해 알아보자

 

 


 

 

 

연관 분석은 둘 이상의 거래, 사건에 포함된 항목들의 관련성을 파악하는 탐색적 데이터 분석 기법으로

 

컨텐츠 기반 추천의 베이스적인 방법이다. 

 

 

 

또한 장바구니 분석으로도 불리며 유사한 개체들을 그룹화하여 각 집단의 특성 파악에 활용되어

 

 

목표변수가 없는 비지도 학습에 해당된다.

 

 

연관 분석은 장바구니의 아이템들, 구매행동, 이용자들 간의 연관성을 분석하여 일정한 규칙을 찾아내게 된다. 이는 고객군

파악, 특정 구매를 한 이유 이해, 상품에 대한 통찰력확보, 프로모션 진행, 마케팅 전략 계획 등으로 활용되곤 한다.

 

 

 


먼저 기본적으로 연관분석은 조건절(만약 ~라면)과 결과절(~이다)로 이루어져있는데 

 

두 절은 상호 배반이므로 같을 수 없다.

 

 

연관 분석의 규칙 중 많이 사용되는 지표로 3가지 개념이 존재한다.

 

상품을 구매한다고 했을 시 

 

 

 

지지도(support) : 데이터 전체에서 해당 물건을 고객이 구매할 확률

 

P(A)

 

모든 경우의 수를 분석하는 과정을 없애기 위해 최소지지도를 설정해서 사용하고는 한다.

 

 

 

신뢰도(confidence) : 데이터를 구매했을 때 다른 제품이 같이 구매될 조건부 확률

 

P(A,B) / P(A)

 

 

 

향상도(lift) : 두 물건 구입 여부가 독립인지 판단하는 개념이다. 

 

향상도 공식

 

 

향상도가 1이면 상호 독립, 1보다 크면 양의 상관관계, 1보다 작으면 음의 상관관계에 있음을 뜻한다. 

 

 

요즘 3가지 규칙을 발견하기 위해 모든 경우를 탐색하면 계산비용이 급증해

 

아프리오리(Apriori)알고리즘을 활용하는 추세이다.

 

 

 

Apriori 알고리즘

 

모든 항목집합에 대한 지지도를 계산하는 대신, 최소 지지도 이상의 빈발항목 집합만을

 

찾아내서 연관규칙을 계산하는 기법이다.

 

 

- 최소 지지도 이상의 한 항목집합이 빈발하다면(일어난다면) 이 항목집합의 모든 부분집합은 역시 빈발항목집합으로 연관규칙 계산에 포함된다. 

 

- 최소 지지도 미만의 한 항목집합이 비빈발하다면 이 항목집합을 포함하는 모든 집합은 비빈발항목집합으로 가지치기를 한다.

 

 

- 이후 최소신뢰도 기준을 적용해서 최소신뢰도에 미달하는 연관규칙은 다시 제거하여 반복작업을 수행, 새로운 연관규칙이 없을 때 진행한다. 

 

 

apriori 좋은 설명 예시 (출처 : https://ratsgo.github.io/machine%20learning/2017/04/08/apriori/)

 

 

 

연관 분석의 장점 : 분석결과가 이해하기 쉽고 실제 적용하기에 용이하다

 

 

연관 분석의 단점 :  품목이 많아질수록 연관성 규칙이 더 많이 발견되나 의미상에 대해 사전판단이 필요하다

 

상당 수 계산과정이 필요하다.

 

 


 

사실 실습을 통해 여러 규칙들을 계산해보고 apriori 기법도 사용해보려고 했으나

 

간단 개념 정리이니 이정도의 개념만 탑재해도 될 것 같아서 그만 두었다.

 

다음에 다시!

 

 

댓글