본문 바로가기

나 취준생

(163)
실전 웹 스크롤링 해보기 1 ( 시청자 게시판 반응 ) 웹 스크롤링 실전 1단계 ( ebs 레이디 버그 게시판 ) 아이들 댓글..인줄 알았는데 아니네?어쨌든 시청자 게시판의 반응들을 스크롤링 해보자 1. 저번에는 웹페이지에서 ctl+s 로 직접 웹페이지를 바탕화면에 저장한 뒤 불러왔지만이번에는 웹상의 url을 파이썬이 인식할 수 있도록 해주자. 123456from bs4 import BeautifulSoupimport urllib.requestlist_url="http://home.ebs.co.kr/ladybug/board/6/10059819/oneBoardList?hmpMnuld=1"url=urllib.request.Request(list_url)result=urllib.request.urlopen(url).read().decode('UTF-8')print..
크롤링 입문 - beautiful soup 모듈 beautiful soup 모듈 배우기 # beautiful soup 파이썬 코드를 복잡하게 작성하지 않아도편하게 웹스크롤링을 할 수 있도록여러 함수들을 제공하는 웹스크롤링 전문 모듈 1. 다음과 같은 내용이 담긴 html 문서를 data 폴더에 저장하기 2. html의 코드를 beautiful soup 모듈에서 사용할 수 있도록 파싱하고, 파싱된 내용 출력하기 1234from bs4 import BeautifulSoupf=open('c:\\data\\ecologicalpyramid.html')soup=BeautifulSoup(f,"html.parser")print(soup) 확인해보면, html 코드가 쫙 soup에 들어갔다. 3. 코드에서 name이라는 class에 접근해서, 데이터를 긁어오기 123..
HTML 기초 개념 * 데이터 분석 순서 데이터 수집 --> 데이터 유형 및 속성 파악 --> 데이터 변환 --> 데이터 저장 --> 데이터 정제 --> 데이터 분석 ~의 첫번째가 되는 데이터 수집~ 데이터 수집 기술 중 웹스크롤링 기술에 대해 알아보자. * HTMLHyper Text Markup Language의 약자로,여러 개의 태그(tag)를 연결해서 모아놓은 문서이다. 1. 메모장을 열고, 다음과 같이 작성 나는 오늘 점심시간에 순두부찌개를 먹었다. 여기서 저장할 때 꼭 파일 형식을 '모든 파일'로 하자 2. 바탕화면의 a.html 실행 3. 확인 오호.. 이제 여러가지 변화를 줘보자 메모장을 다시 열어서 변화를 준 뒤 저장을 하고, html 파일을 열면 업데이트된 것을 확인할 수 있다. # 글씨 진하게 하기 나는 ..
딕셔너리 artist=['아이유','씨스타','이승기']music=['좋은날','러빙유','삭제'] - 그냥 떠오르는거 적었는데 왤케 아재같지 위 가수와 노래로 플레이리스트 melon을 만들어보자. # 딕셔너리 melon을 만들어보기 (노가다) melon={}melon['아이유']='좋은날'melon['씨스타']='러빙유'melon['이승기']='삭제' print(melon) # {'아이유': '좋은날', '씨스타': '러빙유', '이승기': '삭제'} # 딕셔너리 melon 만들기 ( for 문과 zip 활용 ) 123456artist=['아이유','씨스타','이승기']music=['좋은날','러빙유','삭제']melon={}for i, k in zip (artist, music) : melon[i]=kprin..
파이썬으로 히스토그램 그래프 그리기 # 파이썬으로 히스토그램 그래프 그리기 히스토그램 그래프는 계급을 가로축에, 도수를 세로축에 나타낸 뒤각 계급의 크기를 가로의 길이로 하고 도수를 세로의 길이로 하는 직사각형을차례대로 그려서 나타낸 그래프이다. 예제 : 평균이 150, 표준편차가 5인 초등학생 10만명의 키가 담긴 리스트 생성 12import numpy as npheight=np.random.randn(100000)*5+150 randn ( 표본수 ) * 표준편차 + 평균을 따르는--> 가우시안 표준 정규분포를 따르는 난수들 생성 예제 : 계급의 크기를 나타내는 가로의 길이를 설정 12bins=[142,144,146,148,150,152,154,156,158,160]# bins=list(range(142,161,2)) * 도수분포표 확인..
리스트 # 리스트 만들기 ( range ) [0,1,2,3] 이나 [100,101,102,103]과 같이순차적인 정수 리스트를 만드는 가장 간단한 방법은파이썬 내장 함수인 range()를 이용하는 것이다. print( list(range(1,11) ) ) # [1,2,3,4,5,6,7,8,9,10]dice=list(range(1,7))print(dice) # [1,2,3,4,5,6] a=list(range(2,10,2))print(a) # [2,4,6,8] 예제 : 주사위 2개를 만들고 10000번 던져서 주사위 눈의 합이 10이 되는 확률을 구하기 12345678dice=list(range(1,7))dice2=list(range(1,7))import random as rcnt=0for i in range (1..
파이썬으로 막대 그래프 그리기 (matplotlib.pyplot) 막대 그래프를 그릴 수 있게 해주는 matplotlib 패키지에 있는 pyplot 모듈을 불러오고,x 값과 y값을 일단 임의로 만들어보자.이 때 x와 y의 개수는 동일해야한다. 123456789import matplotlib.pyplot as plty_value=[0.00191,0.01,0.07,0.16]x_index=[0,1,2,3] plt.bar(x_index,y_value, color='skyblue') # x,y축 설정, 그래프 색plt.title('coin Probability') # 그래프 제목plt.xlabel('probability') # x축 변수 설명plt.ylabel('cnt') # y축 변수 설명plt.show() 12345678910111213141516171819import ma..
파이썬 문자열 관련 함수들 # 문자열에서 특정 위치의 문자 얻기 인덱스는 0부터 시작한다.파이썬 인덱스는 음수도 가능하다. print('scott'[0]) # sprint('scott'[2]) # o a='scott'print(a[0]) # sprint(a[2]) # o 예제 : Pandas를 이용하지 않고 emp2.csv에서 이름만 출력하기 emp2.csv 데이터 확인 12345import csvfile = open("c:\\data\\emp2.csv")emp_csv=csv.reader(file)for i in emp_csv: print(i) 이름만 출력하기 12345import csvfile = open("c:\\data\\emp2.csv")emp_csv=csv.reader(file)for i in emp_csv: print(..