본문 바로가기

전체 글

(228)
취업 1주차, 블로그 글쓰기를 다시 해보자 2021년 3월 30일, 6개월 간의 빅데이터 분석가 교육과정 국비지원이 끝이 났고, 약 한 달간의 취업 준비 생활 끝에 여의도에 위치한 컨설팅 회사의 데이터 분석 직무로 입사하게 되었다. 사실 최종 합격 통지를 받기 전까지는 '제발..제발..뽑아주세요' 기도했었는데, 막상 부모님께 전하려니 대기업이 아닌 것이 마음에 걸렸다. 아버지는 대기업에 다니셨고, 외동인 나는 그만한 기대를 받고 있지 않았을까.. 하는 생각이 들었기 때문이다. 하지만 부모님은 나보다 훨씬 기뻐하셨다. 그동안 내색은 하지 않으셨지만, 문과 출신인 내가 코로나 시국에 취업 준비라니.. 걱정을 많이 하셨겠지 그렇게 합격 소식을 듣고 약 일주일 뒤에 첫 출근을 하게 되었고, 1주일을 정신 없이 보냈다. 하루하루 실제로 한 일(?)은 없는..
파이썬 단일 회귀분석 import pandas as pd import numpy as np import matplotlib.pyplot as plt import seaborn as sns # 1. 데이터 로드, 확인 df = pd.read_csv('c:\\data\\auto-mpg.csv', header=None) df.columns = ['mpg','cylinders','displacement','horsepower','weight','acceleration','model year','origin','name'] print(df.head()) pd.set_option('display.max_columns', 10) # 행 10개까지 출력 print(df.head()) # 2. 데이터 탐색 print(df.info()) ho..
파이썬 의사결정트리 독버섯 데이터 import pandas as pd # 데이터 전처리를 위해서 import seaborn as sns # 시각화를 위해서 df = pd.read_csv('d:\\data\\mushrooms.csv') df = pd.get_dummies(df, drop_first=True) #print(df.shape) # (8124, 23) print(df) print(df.shape) # (8124, 119) # get_dummies 함수를 이용해서 값의 종류에 따라 # 전부 0 아니면 1로 변환함 # DataFrame 확인 print(df.shape) # (8124, 23) print(df.info()) # 전부 object (문자)형으로 되어있음 print(df.describe()) # 독립, 종속 ..
파이썬 나이브 베이즈 import matplotlib.pyplot as plt from sklearn.model_selection import train_test_split from sklearn import metrics import numpy as np import pandas as pd # 1. 데이터 준비 col_names = ['sepal-length', 'sepal-width','petal-length', 'petal-width','Class'] # csv 파일에서 DataFrame을 생성 dataset = pd.read_csv('c:\\data\\iris2.csv', encoding='UTF-8', header=None, names=col_names) #print(dataset) # DataFrame 확인 pri..
파이썬 knn import pandas as pd import seaborn as sns df = pd.read_csv("c:\\data\\wisc_bc_data.csv") # R과는 다르게 stringsAsFactors=T 안해줘도 된다 # DataFrame 확인 print(df.shape) # (569, 32) 행,열 확인 print(df.info()) # 데이터구조 확인 print(df.describe()) # 요약통계량 확인 # Dataframe 선택 연습 # dataframe[행][열] == dataframe[조건][컬럼명] print(df.iloc[0:5, ]) # 0~4번째행 print(df.iloc[-5: ,]) # 끝에서 5번째 행 끝까지 # df.iloc을 이용하면 컬럼명이 없더라도 원하는 행을 선택..
R SOM(Self Organizing Map) 분석 # SOM(Self Organizing Map) 분석 비지도학습 신경망으로 고차원의 데이터를 이해하기 위해 저차원의 뉴런으로 정렬하여 지도(map)의 형태로 형상화 하는 기법 -> 비지도학습 + 신경망 # 예제 실습 iris 데이터를 som 비지도학습 신경망을 이용해서 군집화 1. 아이리스 데이터의 컬럼 이름 확인 및 건수 확인 colnames(iris) nrow(iris) # 150건 2. 아이리스의 정답인 Species 가 팩터이므로 level 확인 levels(iris$Species) # "setosa" "versicolor" "virginica" 3. som 패키지 설치 install.packages("kohonen") library(kohonen) 4. 훈련 데이터와 테스트 데이터를 3대 1로 ..
R k-means 군집 분석 # k-means 알고리즘 k-means 알고리즘은 주어진 데이터를 k 개의 클러스터로 묶는 알고리즘으로, 각 클러스터와 거리차이의 분산을 최소화하는 방식으로 동작한다. 이 알고리즘은 자율학습의 일종으로 레이블(정답)이 달려있지 않은 입력 데이터에 레이블(정답)을 달아주는 역할로도 활용되고 있다. 이 세상의 데이터는 정답이 없는 데이터가 훨씬 많다. 그래서 정답이 없는 데이터 속에서 어떤 패턴을 찾고 싶을때 비지도 학습의 k-means 군집화 머신러닝 알고리즘을 활용한다. k-means 현업사례: 1. 모통신사에서 기지국을 세울때 사용 2. 병원에서 암 판별 머신러닝 모델을 만든는데 라벨링있는 지도학습 - 데이터를 훈련 시킬때 비지도학습을 같이 사용해서 모형의 정확도를 올리는데 참조 - 이 데이터는 악성..
R 연관규칙 # 연관규칙 데이터 내부에 존재하는 항목간의 상호관계 혹은 종속관계를 찾아내는 분석기법 데이터 간의 관계에서 조건과 반응을 연결하는 분석으로 장바구니 분석 또는 서열 분석이라고 함 # Apriori 알고리즘 간단한 성능 측정치를 이용해서 거대한 데이터에서 데이터간의 연관성을 찾는 알고리즘 # Apriori 알고리즘은 어떤 데이터의 패턴을 찾을 때 유용한가? 1. 암 데이터에서 빈번히 발생하는 DNA 패턴과 단백질의 서열을 검사할 때 2. 사기성 신용카드 및 사기성 보험료 청구시에 패턴 발견 3. 유통업에서는 장바구니 분석을 통해 상품 추천 뿐만 아니라 상품진열, 홈쇼핑의 경우에는 방송순서 등 # 연관규칙에 관련한 중요 용어 3가지 1. 지지도 : 전체 거래중 항목 A 와 B 를 동시에 포함하는 거래의 비..