본문 바로가기

나 취준생

(163)
파이썬 단일 회귀분석 import pandas as pd import numpy as np import matplotlib.pyplot as plt import seaborn as sns # 1. 데이터 로드, 확인 df = pd.read_csv('c:\\data\\auto-mpg.csv', header=None) df.columns = ['mpg','cylinders','displacement','horsepower','weight','acceleration','model year','origin','name'] print(df.head()) pd.set_option('display.max_columns', 10) # 행 10개까지 출력 print(df.head()) # 2. 데이터 탐색 print(df.info()) ho..
파이썬 의사결정트리 독버섯 데이터 import pandas as pd # 데이터 전처리를 위해서 import seaborn as sns # 시각화를 위해서 df = pd.read_csv('d:\\data\\mushrooms.csv') df = pd.get_dummies(df, drop_first=True) #print(df.shape) # (8124, 23) print(df) print(df.shape) # (8124, 119) # get_dummies 함수를 이용해서 값의 종류에 따라 # 전부 0 아니면 1로 변환함 # DataFrame 확인 print(df.shape) # (8124, 23) print(df.info()) # 전부 object (문자)형으로 되어있음 print(df.describe()) # 독립, 종속 ..
파이썬 나이브 베이즈 import matplotlib.pyplot as plt from sklearn.model_selection import train_test_split from sklearn import metrics import numpy as np import pandas as pd # 1. 데이터 준비 col_names = ['sepal-length', 'sepal-width','petal-length', 'petal-width','Class'] # csv 파일에서 DataFrame을 생성 dataset = pd.read_csv('c:\\data\\iris2.csv', encoding='UTF-8', header=None, names=col_names) #print(dataset) # DataFrame 확인 pri..
파이썬 knn import pandas as pd import seaborn as sns df = pd.read_csv("c:\\data\\wisc_bc_data.csv") # R과는 다르게 stringsAsFactors=T 안해줘도 된다 # DataFrame 확인 print(df.shape) # (569, 32) 행,열 확인 print(df.info()) # 데이터구조 확인 print(df.describe()) # 요약통계량 확인 # Dataframe 선택 연습 # dataframe[행][열] == dataframe[조건][컬럼명] print(df.iloc[0:5, ]) # 0~4번째행 print(df.iloc[-5: ,]) # 끝에서 5번째 행 끝까지 # df.iloc을 이용하면 컬럼명이 없더라도 원하는 행을 선택..
R SOM(Self Organizing Map) 분석 # SOM(Self Organizing Map) 분석 비지도학습 신경망으로 고차원의 데이터를 이해하기 위해 저차원의 뉴런으로 정렬하여 지도(map)의 형태로 형상화 하는 기법 -> 비지도학습 + 신경망 # 예제 실습 iris 데이터를 som 비지도학습 신경망을 이용해서 군집화 1. 아이리스 데이터의 컬럼 이름 확인 및 건수 확인 colnames(iris) nrow(iris) # 150건 2. 아이리스의 정답인 Species 가 팩터이므로 level 확인 levels(iris$Species) # "setosa" "versicolor" "virginica" 3. som 패키지 설치 install.packages("kohonen") library(kohonen) 4. 훈련 데이터와 테스트 데이터를 3대 1로 ..
R k-means 군집 분석 # k-means 알고리즘 k-means 알고리즘은 주어진 데이터를 k 개의 클러스터로 묶는 알고리즘으로, 각 클러스터와 거리차이의 분산을 최소화하는 방식으로 동작한다. 이 알고리즘은 자율학습의 일종으로 레이블(정답)이 달려있지 않은 입력 데이터에 레이블(정답)을 달아주는 역할로도 활용되고 있다. 이 세상의 데이터는 정답이 없는 데이터가 훨씬 많다. 그래서 정답이 없는 데이터 속에서 어떤 패턴을 찾고 싶을때 비지도 학습의 k-means 군집화 머신러닝 알고리즘을 활용한다. k-means 현업사례: 1. 모통신사에서 기지국을 세울때 사용 2. 병원에서 암 판별 머신러닝 모델을 만든는데 라벨링있는 지도학습 - 데이터를 훈련 시킬때 비지도학습을 같이 사용해서 모형의 정확도를 올리는데 참조 - 이 데이터는 악성..
R 연관규칙 # 연관규칙 데이터 내부에 존재하는 항목간의 상호관계 혹은 종속관계를 찾아내는 분석기법 데이터 간의 관계에서 조건과 반응을 연결하는 분석으로 장바구니 분석 또는 서열 분석이라고 함 # Apriori 알고리즘 간단한 성능 측정치를 이용해서 거대한 데이터에서 데이터간의 연관성을 찾는 알고리즘 # Apriori 알고리즘은 어떤 데이터의 패턴을 찾을 때 유용한가? 1. 암 데이터에서 빈번히 발생하는 DNA 패턴과 단백질의 서열을 검사할 때 2. 사기성 신용카드 및 사기성 보험료 청구시에 패턴 발견 3. 유통업에서는 장바구니 분석을 통해 상품 추천 뿐만 아니라 상품진열, 홈쇼핑의 경우에는 방송순서 등 # 연관규칙에 관련한 중요 용어 3가지 1. 지지도 : 전체 거래중 항목 A 와 B 를 동시에 포함하는 거래의 비..
깃허브 프로필에 공백, 엔터 넣기 그동안 프로필 소개를 안 썼었는데 오늘 갑자기 쓰고 싶은 기분이 됨 깝치지 않겠습니다. Save 깃허브 : 아 ㅋㅋ 깝치지말라고 엔터가 안 되있다. 안 멋있다. 이후 Profile 에서 수정도 해보고 엔터를 여러개 해보고, 띄어쓰기도 여러개 해봐도 띄어쓰기는 최대 1칸으로 고정되어있는 듯하다. 결국 검색을 통해 알아낸 방법 1. Settings - Profile 들어가기 2. 크롬 기준 F12를 눌러 개발자 도구 창을 띄운 뒤 왼쪽에 네모칸과 화살표 있는 버튼을 누른 뒤 Bio (자기소개란) 클릭하면 다음 사진처럼 해당 부분의 HTML 코드를 확인할 수 있다 3. 해당 텍스트 부분(개발자 도구 창)에서 우클릭 - EDIT as HTML 클릭 4. 그럼 이렇게 내가 직접 코드를 넣을 수 있게 된다 5. 띄..