본문 바로가기

전체 글

(228)
웹 스크롤링 연습 ( 중앙 일보 기사 ) 1. 중앙 일보에 가서 '인공지능'을 검색해보자. 2. 맨 위의 기사 url 들어가서 복사해보기 https://news.joins.com/article/23947044그 밑 기사 url 주소https://news.joins.com/article/23946979그 밑 기사 url 주소https://news.joins.com/article/23946876 이렇게 주소들을 확인해보면 당연하지만 숫자가 불규칙하다. 왜냐면 내가 따로 기사들을 검색해서 조회한 결과기 때문에흩어져있던 기사들이 모였을뿐 원래 연속으로 쓰였던 게 아니니까 그래서 저번에 했던 것처럼 for 문으로 돌릴 수가 없다 3. 이렇게 나오도록전체 보기 > 한 뒤 맨 밑 번호에서 2로 이동한 뒤 다시 1로 돌아오기!url 주소에 page 번호가 명..
실전 웹 스크롤링 해보기 1 ( 시청자 게시판 반응 ) 웹 스크롤링 실전 1단계 ( ebs 레이디 버그 게시판 ) 아이들 댓글..인줄 알았는데 아니네?어쨌든 시청자 게시판의 반응들을 스크롤링 해보자 1. 저번에는 웹페이지에서 ctl+s 로 직접 웹페이지를 바탕화면에 저장한 뒤 불러왔지만이번에는 웹상의 url을 파이썬이 인식할 수 있도록 해주자. 123456from bs4 import BeautifulSoupimport urllib.requestlist_url="http://home.ebs.co.kr/ladybug/board/6/10059819/oneBoardList?hmpMnuld=1"url=urllib.request.Request(list_url)result=urllib.request.urlopen(url).read().decode('UTF-8')print..
크롤링 입문 - beautiful soup 모듈 beautiful soup 모듈 배우기 # beautiful soup 파이썬 코드를 복잡하게 작성하지 않아도편하게 웹스크롤링을 할 수 있도록여러 함수들을 제공하는 웹스크롤링 전문 모듈 1. 다음과 같은 내용이 담긴 html 문서를 data 폴더에 저장하기 2. html의 코드를 beautiful soup 모듈에서 사용할 수 있도록 파싱하고, 파싱된 내용 출력하기 1234from bs4 import BeautifulSoupf=open('c:\\data\\ecologicalpyramid.html')soup=BeautifulSoup(f,"html.parser")print(soup) 확인해보면, html 코드가 쫙 soup에 들어갔다. 3. 코드에서 name이라는 class에 접근해서, 데이터를 긁어오기 123..
HTML 기초 개념 * 데이터 분석 순서 데이터 수집 --> 데이터 유형 및 속성 파악 --> 데이터 변환 --> 데이터 저장 --> 데이터 정제 --> 데이터 분석 ~의 첫번째가 되는 데이터 수집~ 데이터 수집 기술 중 웹스크롤링 기술에 대해 알아보자. * HTMLHyper Text Markup Language의 약자로,여러 개의 태그(tag)를 연결해서 모아놓은 문서이다. 1. 메모장을 열고, 다음과 같이 작성 나는 오늘 점심시간에 순두부찌개를 먹었다. 여기서 저장할 때 꼭 파일 형식을 '모든 파일'로 하자 2. 바탕화면의 a.html 실행 3. 확인 오호.. 이제 여러가지 변화를 줘보자 메모장을 다시 열어서 변화를 준 뒤 저장을 하고, html 파일을 열면 업데이트된 것을 확인할 수 있다. # 글씨 진하게 하기 나는 ..
딕셔너리 artist=['아이유','씨스타','이승기']music=['좋은날','러빙유','삭제'] - 그냥 떠오르는거 적었는데 왤케 아재같지 위 가수와 노래로 플레이리스트 melon을 만들어보자. # 딕셔너리 melon을 만들어보기 (노가다) melon={}melon['아이유']='좋은날'melon['씨스타']='러빙유'melon['이승기']='삭제' print(melon) # {'아이유': '좋은날', '씨스타': '러빙유', '이승기': '삭제'} # 딕셔너리 melon 만들기 ( for 문과 zip 활용 ) 123456artist=['아이유','씨스타','이승기']music=['좋은날','러빙유','삭제']melon={}for i, k in zip (artist, music) : melon[i]=kprin..
파이썬으로 히스토그램 그래프 그리기 # 파이썬으로 히스토그램 그래프 그리기 히스토그램 그래프는 계급을 가로축에, 도수를 세로축에 나타낸 뒤각 계급의 크기를 가로의 길이로 하고 도수를 세로의 길이로 하는 직사각형을차례대로 그려서 나타낸 그래프이다. 예제 : 평균이 150, 표준편차가 5인 초등학생 10만명의 키가 담긴 리스트 생성 12import numpy as npheight=np.random.randn(100000)*5+150 randn ( 표본수 ) * 표준편차 + 평균을 따르는--> 가우시안 표준 정규분포를 따르는 난수들 생성 예제 : 계급의 크기를 나타내는 가로의 길이를 설정 12bins=[142,144,146,148,150,152,154,156,158,160]# bins=list(range(142,161,2)) * 도수분포표 확인..
리스트 # 리스트 만들기 ( range ) [0,1,2,3] 이나 [100,101,102,103]과 같이순차적인 정수 리스트를 만드는 가장 간단한 방법은파이썬 내장 함수인 range()를 이용하는 것이다. print( list(range(1,11) ) ) # [1,2,3,4,5,6,7,8,9,10]dice=list(range(1,7))print(dice) # [1,2,3,4,5,6] a=list(range(2,10,2))print(a) # [2,4,6,8] 예제 : 주사위 2개를 만들고 10000번 던져서 주사위 눈의 합이 10이 되는 확률을 구하기 12345678dice=list(range(1,7))dice2=list(range(1,7))import random as rcnt=0for i in range (1..
파이썬으로 막대 그래프 그리기 (matplotlib.pyplot) 막대 그래프를 그릴 수 있게 해주는 matplotlib 패키지에 있는 pyplot 모듈을 불러오고,x 값과 y값을 일단 임의로 만들어보자.이 때 x와 y의 개수는 동일해야한다. 123456789import matplotlib.pyplot as plty_value=[0.00191,0.01,0.07,0.16]x_index=[0,1,2,3] plt.bar(x_index,y_value, color='skyblue') # x,y축 설정, 그래프 색plt.title('coin Probability') # 그래프 제목plt.xlabel('probability') # x축 변수 설명plt.ylabel('cnt') # y축 변수 설명plt.show() 12345678910111213141516171819import ma..