본문 바로가기

나 취준생/R

(22)
R SOM(Self Organizing Map) 분석 # SOM(Self Organizing Map) 분석 비지도학습 신경망으로 고차원의 데이터를 이해하기 위해 저차원의 뉴런으로 정렬하여 지도(map)의 형태로 형상화 하는 기법 -> 비지도학습 + 신경망 # 예제 실습 iris 데이터를 som 비지도학습 신경망을 이용해서 군집화 1. 아이리스 데이터의 컬럼 이름 확인 및 건수 확인 colnames(iris) nrow(iris) # 150건 2. 아이리스의 정답인 Species 가 팩터이므로 level 확인 levels(iris$Species) # "setosa" "versicolor" "virginica" 3. som 패키지 설치 install.packages("kohonen") library(kohonen) 4. 훈련 데이터와 테스트 데이터를 3대 1로 ..
R k-means 군집 분석 # k-means 알고리즘 k-means 알고리즘은 주어진 데이터를 k 개의 클러스터로 묶는 알고리즘으로, 각 클러스터와 거리차이의 분산을 최소화하는 방식으로 동작한다. 이 알고리즘은 자율학습의 일종으로 레이블(정답)이 달려있지 않은 입력 데이터에 레이블(정답)을 달아주는 역할로도 활용되고 있다. 이 세상의 데이터는 정답이 없는 데이터가 훨씬 많다. 그래서 정답이 없는 데이터 속에서 어떤 패턴을 찾고 싶을때 비지도 학습의 k-means 군집화 머신러닝 알고리즘을 활용한다. k-means 현업사례: 1. 모통신사에서 기지국을 세울때 사용 2. 병원에서 암 판별 머신러닝 모델을 만든는데 라벨링있는 지도학습 - 데이터를 훈련 시킬때 비지도학습을 같이 사용해서 모형의 정확도를 올리는데 참조 - 이 데이터는 악성..
R 연관규칙 # 연관규칙 데이터 내부에 존재하는 항목간의 상호관계 혹은 종속관계를 찾아내는 분석기법 데이터 간의 관계에서 조건과 반응을 연결하는 분석으로 장바구니 분석 또는 서열 분석이라고 함 # Apriori 알고리즘 간단한 성능 측정치를 이용해서 거대한 데이터에서 데이터간의 연관성을 찾는 알고리즘 # Apriori 알고리즘은 어떤 데이터의 패턴을 찾을 때 유용한가? 1. 암 데이터에서 빈번히 발생하는 DNA 패턴과 단백질의 서열을 검사할 때 2. 사기성 신용카드 및 사기성 보험료 청구시에 패턴 발견 3. 유통업에서는 장바구니 분석을 통해 상품 추천 뿐만 아니라 상품진열, 홈쇼핑의 경우에는 방송순서 등 # 연관규칙에 관련한 중요 용어 3가지 1. 지지도 : 전체 거래중 항목 A 와 B 를 동시에 포함하는 거래의 비..
R 신경망 # 활성화 함수의 종류 1. 계단함수 : 입력신호의 총합이 임계치를 넘느냐 안넘느냐를 숫자 1과 0으로 리턴 2. 시그모이드 함수 : 계단함수는 무조건 0 아니면 1을 리턴하지만, 시그모이드는 0~1 사이의 연속적인 실수값을 리턴 3. 렐루 함수 : relu 함수 Rectified Linear unit 시그모이드 함수 때문에 나온 함수 시그모이드 함수의 단점이 전파가 역전파 될 때 기울기 소실로 인해 전파가 앞층까지 안된다는 단점이 있어서 나오게 된 함수 4. leaky relu 함수 : 렐루함수의 음수 부분의 기울기 0이어서 역전파할 때 기울기가 소실되므로 기울기를 0이 아니게 만들어주는 함수 5. tanh 함수 인공신경망의 기초가 된 알고리즘은 인공신경세포 하나를 컴퓨터로 구현한 퍼셉트론. 퍼셉트론에..
R 회귀분석 - 2 # 다중공선성 ( variance inflation factor ) 회귀분석에서 사용된 모형의 일부 설명변수(독립변수)가 다른 독립변수와의 상관정도가 높아데이터 분석시 부정적인 영향을 미치는 현상을 말한다. 두 독립변수들끼기 서로에게 영향을 주고 있다면,둘 중 하나의 영향력을 검증할때 다른 하나의 영향력을 완전히 통제할 수 없게 된다. 예: 학업성취도, 일평균음주량, 혈중 알코올 농도 ↑ 종속변수 음주가 학업성취도에 미치는 영향을 알아보려고 회귀분석을 하려고한다.일평균 음주량과 혈중 알코올 농도는 서로 아주 강한 상관정도를 보인다. 실제로 x1 과 x2 의 값이 증가 또는 감소 할수록 y 값이 증가 또는 감소할 것인데 이중 하나는 굉장히 불안정한 계수값을 보이게 된다. 공선성은 두 개의 독립변수들 간의 ..
R 회귀분석 - 1 # 회귀분석 회귀분석은 하나의 변수가 나머지 다른 변수들과의 선형관계를 갖는가의 여부를 분석하는 방법하나의 종속변수(예측하고자 하는 값)와 독립변수 사이의 관계를 명시하는 것이 목적이다 ex) 집 값에 영향을 주는 요소 - 독립변수 : 종속변수에 영향을 주는 변수 (평수, 역세권, 학군, ....)- 종속변수 : 독립변수의 영향을 받아 다르게 나타나는 변수 (집값) # 최소 제곱 추정법 최적의 기울기 a와 절편 b를 결정하기 위해 최소 제곱으로 알려진 추정 기법을 사용한다.실제값과 예측값 사이의 수직 직선이 오차(잔차)를 제곱해서 구한 총합을 알아야한다. 예제 : 어느 실험실에서 10,20,30,40시간 마다 물질의 방사능 수치를 측정한 자료가 있을 때,35시간의 방사능 수치는 무엇인가? x=c(10,2..
R 규칙 기반 분류 (OneR/Ripper) 분류 규칙 1R(OneR) 알고리즘 - 하나의 사실(조건)만 가지고 간단하게 분류하는 알고리즘 - 하나의 사실만 가지고 분류하다보니 간단하지만 오류가 많다. ex) 가슴 통증의 유무에 따라 심장 질환이 있는지 분류하고자 하면 오류가 많아진다. Ripper 알고리즘 - 복수개의 사실(조건)을 가지고 분류하는 알고리즘 ex) 가슴 통증이 있으면서 호흡 곤란이 있으면 심장 질환일 것이다. # 1R 알고리즘으로 분류 1. 버섯 데이터를 R로 로드 mushroom
R 의사결정트리 # 의사결정트리데이터들이 가진 속성들로부터 분할 기준 속성을 판별하고,분할 기준 속성에 따라 트리 형태로 모델링하는 분류 예측 모델 - 의사결정트리와 회귀분석은 현업에서 고객들과 데이터 분석가들이 선호하는 머신러닝 알고리즘이다.정확도 면에서는 신경망이 훨씬 훌륭하지만 신경망 내부가 블랙박스[보이지 않기]이기 때문에고객들에게 설명하기 힘든 경우가 많다.반면, 의사결정트리와 회귀분석은 설명이 잘 되기 때문에 선호되는 분류 모델이다. # 의사결정트리를 만드는 원리 부모 마디의 순수도에 비해서 자식 마디들의 순수도가 증가하도록 자식 마디를 형성해 나가면서 만든다.순수도 : 목표 변수의 특정 범주에 개체들이 포함되어 있는 정도 순수도가 높을수록 한 종류끼리 잘 모인 상태이다.즉, 분류를 딱 시작한 순간의 부모 마..