나 취준생/R (22) 썸네일형 리스트형 R 나이브 베이즈 알고리즘 # 나이브 베이즈 알고리즘 나이브 베이즈 - 분류 - 지도 학습 # 활용 분야 1. 스팸 이메일 필터링과 같은 텍스트 분류2. 컴퓨터 네트워크에서 침입이나 비정상적인 행위 탐지3. 일련의 관찰된 증상에 따른 의학적 질병 진단 # 베이즈 분류 베이즈 이론을 이용해서 주어진 대상을 원하는 카테고리로 분류하는 방법 예제 : 비아그라가 포함되어져 있는 메일이 스팸 메일일 확률 우도 사전확률 ↓ ↓ p(비아그라 | 스팸) * p(스팸)p( 스팸 | 비아그라 ) =---------------------------------------------↑ p(비아그라) 사후확률 베이즈 이론을 적용해서 메세지가 스팸이 될 확률을 측정한 후사후확률을 계산해서 50%보다 크다면 이 메세지는 햄보다는 스팸이 될 가능성이 좀 더 크.. R knn 알고리즘 # KNN 알고리즘 - k nearest neighbor의 약자로, k개의 최근접 이웃이라는 뜻.- 머신러닝 지도학습의 분류에 해당 새로 들어온 데이터가 기존 데이터의 그룹에서 어느 그룹에 속하는지 찾을 때거리가 제일 가까운 데이터의 그룹을 자기 그룹으로 선택하는 알고리즘 - 장점 : 단순하고 효율적, 모델을 훈련시키지 않아도 됨- 단점 : 모델을 생성하지 않기 때문에 특징과 클래스 간의 관계를 이해하는 능력이 제한됨적절한 k 값을 모델 개발자가 직접 알아내야 함 # KNN의 원리 새로 들어온 데이터가 기존 데이터 중에서 ( 악성종양, 양성종양 )어느 데이터에 더 인접해 있는지 거리를 계산해서가장 가까운 거리[유클리드 거리]에 있는 데이터를 자기 이웃으로 선택 # 군집 간의 거리 계산 연속형 변수의 거리.. R 교차표, 카이제곱 검정 car R 팩터 (Factor) # R의 자료구조 1. vector : 같은 데이터 타입을 갖는 1차원 배열구조a R 박스 플롯 그래프 # 사분위수 그래프 ( 박스 플롯 그래프) 박스플롯 : 많은 데이터를 그림을 이용하여 집합의 범위와 중앙값을 빠르게확인 할 수 있으며 또한 통계적으로 이상치값이 있는지 빠르게 확인이 가능한 시각화 기법 평균값과 중앙값과 최빈값만으로는 데이터 분석을 하기 부족한 경우가 있다.평균 데이터는 데이터의 중심이 어디쯤인지 알려주지만 특정 데이터가 평균을중심으로 어떻게 분포가 되어있는지는 알려주지 않는다. 예제: 어느 농구단의 감독이 아래의 3명의 농구선수중에 한 명을 선택하려고 한다. 아래의 3명의 선수의 게임별 점수를 가지고 한명을 고른다면 어떤 선수를 골라야 하나? 농구 선수 3명이 각각의 게임당 득점한 점수 x1 R 히스토그램 그래프 # R에서 히스토그램 그래프 그리기 하나의 속성에 대한 데이터의 분포를 시각적으로 표현하는 그래프 중고차 가격 데이터 : usedcars.csv usedcars R 라인 그래프 # R에서 라인 그래프 그리기 시간 순서에 따른 데이터의 변화를 볼때 유용한 그래프 예제 : 아래의 데이터로 plot(점) 그래프 그리기 cars R 막대 그래프 # R로 막대 그래프 그리기 예제 : emp 테이블의 월급으로 기본적인 막대 그래프를 그리기 barplot(emp$sal) 예제 : 위의 그래프의 제목을 Salary Bar Chart 라고 이름을 붙이기 barplot(emp$sal, main="Salary Bar Chart") 예제 : 막대 그래프 x 축에 사원이름을 붙이기 barplot(emp$sal, main="Salary Bar Chart", names.arg= emp$ename) 예제 : 막대 그래프의 x축과 y축의 이름을 각각 이름, 월급이라 붙이기 barplot(emp$sal, main="Salary Bar Chart", names.arg= emp$ename, xlab="이름", ylab="월급" ) 예제 : 막대 그래프의 색깔을 파란색으로 .. 이전 1 2 3 다음