본문 바로가기

전체 글

(228)
깃허브 프로필에 공백, 엔터 넣기 그동안 프로필 소개를 안 썼었는데 오늘 갑자기 쓰고 싶은 기분이 됨 깝치지 않겠습니다. Save 깃허브 : 아 ㅋㅋ 깝치지말라고 엔터가 안 되있다. 안 멋있다. 이후 Profile 에서 수정도 해보고 엔터를 여러개 해보고, 띄어쓰기도 여러개 해봐도 띄어쓰기는 최대 1칸으로 고정되어있는 듯하다. 결국 검색을 통해 알아낸 방법 1. Settings - Profile 들어가기 2. 크롬 기준 F12를 눌러 개발자 도구 창을 띄운 뒤 왼쪽에 네모칸과 화살표 있는 버튼을 누른 뒤 Bio (자기소개란) 클릭하면 다음 사진처럼 해당 부분의 HTML 코드를 확인할 수 있다 3. 해당 텍스트 부분(개발자 도구 창)에서 우클릭 - EDIT as HTML 클릭 4. 그럼 이렇게 내가 직접 코드를 넣을 수 있게 된다 5. 띄..
R 신경망 # 활성화 함수의 종류 1. 계단함수 : 입력신호의 총합이 임계치를 넘느냐 안넘느냐를 숫자 1과 0으로 리턴 2. 시그모이드 함수 : 계단함수는 무조건 0 아니면 1을 리턴하지만, 시그모이드는 0~1 사이의 연속적인 실수값을 리턴 3. 렐루 함수 : relu 함수 Rectified Linear unit 시그모이드 함수 때문에 나온 함수 시그모이드 함수의 단점이 전파가 역전파 될 때 기울기 소실로 인해 전파가 앞층까지 안된다는 단점이 있어서 나오게 된 함수 4. leaky relu 함수 : 렐루함수의 음수 부분의 기울기 0이어서 역전파할 때 기울기가 소실되므로 기울기를 0이 아니게 만들어주는 함수 5. tanh 함수 인공신경망의 기초가 된 알고리즘은 인공신경세포 하나를 컴퓨터로 구현한 퍼셉트론. 퍼셉트론에..
R 회귀분석 - 2 # 다중공선성 ( variance inflation factor ) 회귀분석에서 사용된 모형의 일부 설명변수(독립변수)가 다른 독립변수와의 상관정도가 높아데이터 분석시 부정적인 영향을 미치는 현상을 말한다. 두 독립변수들끼기 서로에게 영향을 주고 있다면,둘 중 하나의 영향력을 검증할때 다른 하나의 영향력을 완전히 통제할 수 없게 된다. 예: 학업성취도, 일평균음주량, 혈중 알코올 농도 ↑ 종속변수 음주가 학업성취도에 미치는 영향을 알아보려고 회귀분석을 하려고한다.일평균 음주량과 혈중 알코올 농도는 서로 아주 강한 상관정도를 보인다. 실제로 x1 과 x2 의 값이 증가 또는 감소 할수록 y 값이 증가 또는 감소할 것인데 이중 하나는 굉장히 불안정한 계수값을 보이게 된다. 공선성은 두 개의 독립변수들 간의 ..
R 회귀분석 - 1 # 회귀분석 회귀분석은 하나의 변수가 나머지 다른 변수들과의 선형관계를 갖는가의 여부를 분석하는 방법하나의 종속변수(예측하고자 하는 값)와 독립변수 사이의 관계를 명시하는 것이 목적이다 ex) 집 값에 영향을 주는 요소 - 독립변수 : 종속변수에 영향을 주는 변수 (평수, 역세권, 학군, ....)- 종속변수 : 독립변수의 영향을 받아 다르게 나타나는 변수 (집값) # 최소 제곱 추정법 최적의 기울기 a와 절편 b를 결정하기 위해 최소 제곱으로 알려진 추정 기법을 사용한다.실제값과 예측값 사이의 수직 직선이 오차(잔차)를 제곱해서 구한 총합을 알아야한다. 예제 : 어느 실험실에서 10,20,30,40시간 마다 물질의 방사능 수치를 측정한 자료가 있을 때,35시간의 방사능 수치는 무엇인가? x=c(10,2..
R 규칙 기반 분류 (OneR/Ripper) 분류 규칙 1R(OneR) 알고리즘 - 하나의 사실(조건)만 가지고 간단하게 분류하는 알고리즘 - 하나의 사실만 가지고 분류하다보니 간단하지만 오류가 많다. ex) 가슴 통증의 유무에 따라 심장 질환이 있는지 분류하고자 하면 오류가 많아진다. Ripper 알고리즘 - 복수개의 사실(조건)을 가지고 분류하는 알고리즘 ex) 가슴 통증이 있으면서 호흡 곤란이 있으면 심장 질환일 것이다. # 1R 알고리즘으로 분류 1. 버섯 데이터를 R로 로드 mushroom
R 의사결정트리 # 의사결정트리데이터들이 가진 속성들로부터 분할 기준 속성을 판별하고,분할 기준 속성에 따라 트리 형태로 모델링하는 분류 예측 모델 - 의사결정트리와 회귀분석은 현업에서 고객들과 데이터 분석가들이 선호하는 머신러닝 알고리즘이다.정확도 면에서는 신경망이 훨씬 훌륭하지만 신경망 내부가 블랙박스[보이지 않기]이기 때문에고객들에게 설명하기 힘든 경우가 많다.반면, 의사결정트리와 회귀분석은 설명이 잘 되기 때문에 선호되는 분류 모델이다. # 의사결정트리를 만드는 원리 부모 마디의 순수도에 비해서 자식 마디들의 순수도가 증가하도록 자식 마디를 형성해 나가면서 만든다.순수도 : 목표 변수의 특정 범주에 개체들이 포함되어 있는 정도 순수도가 높을수록 한 종류끼리 잘 모인 상태이다.즉, 분류를 딱 시작한 순간의 부모 마..
R 나이브 베이즈 알고리즘 # 나이브 베이즈 알고리즘 나이브 베이즈 - 분류 - 지도 학습 # 활용 분야 1. 스팸 이메일 필터링과 같은 텍스트 분류2. 컴퓨터 네트워크에서 침입이나 비정상적인 행위 탐지3. 일련의 관찰된 증상에 따른 의학적 질병 진단 # 베이즈 분류 베이즈 이론을 이용해서 주어진 대상을 원하는 카테고리로 분류하는 방법 예제 : 비아그라가 포함되어져 있는 메일이 스팸 메일일 확률 우도 사전확률 ↓ ↓ p(비아그라 | 스팸) * p(스팸)p( 스팸 | 비아그라 ) =---------------------------------------------↑ p(비아그라) 사후확률 베이즈 이론을 적용해서 메세지가 스팸이 될 확률을 측정한 후사후확률을 계산해서 50%보다 크다면 이 메세지는 햄보다는 스팸이 될 가능성이 좀 더 크..
R knn 알고리즘 # KNN 알고리즘 - k nearest neighbor의 약자로, k개의 최근접 이웃이라는 뜻.- 머신러닝 지도학습의 분류에 해당 새로 들어온 데이터가 기존 데이터의 그룹에서 어느 그룹에 속하는지 찾을 때거리가 제일 가까운 데이터의 그룹을 자기 그룹으로 선택하는 알고리즘 - 장점 : 단순하고 효율적, 모델을 훈련시키지 않아도 됨- 단점 : 모델을 생성하지 않기 때문에 특징과 클래스 간의 관계를 이해하는 능력이 제한됨적절한 k 값을 모델 개발자가 직접 알아내야 함 # KNN의 원리 새로 들어온 데이터가 기존 데이터 중에서 ( 악성종양, 양성종양 )어느 데이터에 더 인접해 있는지 거리를 계산해서가장 가까운 거리[유클리드 거리]에 있는 데이터를 자기 이웃으로 선택 # 군집 간의 거리 계산 연속형 변수의 거리..