본문 바로가기

나 취준생/파이썬

(43)
구글 이미지 크롤링 웹에 있는 사진을 크롤링 하는 방법 ( 구글 이미지 ) 셀레니움을 써서 마치 손으로 클릭해서 이미지를 저장하듯 저장을 하는데컴퓨터를 시켜서 이 과정을 자동화 시키는 방법으로 스크롤링을 한다. 1. 크롬 웹브라우저가 설치 되어있어야 한다.2. c 드라이브 밑에 chromedriver 폴더를 생성하고, chromedriver.exe를 넣는다.3. c 드라이브 밑에 gimages 폴더를 생성한다.4. 다운 받을 이미지의 키워드를 결정한다.5. 아나콘다 프롬프트 창을 열고 selenium을 설치conda install selenium 또는 pip install selenium 을 입력하면 설치가 진행된다. ----------------------------------------..
감정 분석 + 워드 클라우드 웹 스크롤링한 데이터를 분석하는 예시 1. 신제품이 출시되었을 때 소비자들의 반응을 살펴보고자 할 때 -> 감정 분석2. 시기별 사회 현상을 파악하고자 할 때3. 인공지능 상담원 ( 딥러닝 RNN )4. 딥러닝 CNN의 신경망의 학습 자료 활용 데이터의 종류 3가지 1. 정형 데이터 : 정형화된 스키마 구조. DBMS에 저장될 수 있는 구조예 : Oracle 테이블, MYSQL, MSSQL 2. 반정형 데이터 : 데이터 내부의 데이터 구조에 대한 메타 정보가 포함된 구조의 데이터예 : html 문서, xml 문서 3. 비정형 데이터 : 웹스크롤링 기술로 수집해서 모은 데이터예 : 텍스트 파일, 이미지, 동영상 1. 조선일보에서 '봉사' 키워드로 웹 스크롤링 했던 bongsa.txt 파일 확인 2. 텍스트..
워드 클라우드 그리기 # 파이썬에서 워드 클라우드 그리기 1. 아나콘다 프롬프트 창을 열고 wordcloud 패키지 설치 # 검색 - anaconda prompt conda install wordcloud 또는 pip install wordcloud 후 엔터 나는 전자의 경우 오류가 발생해서후자로 하니까 성공적으로 설치가 되었다. 2. c 드라이브 밑에 project 폴더를 생성 3. project 폴더 밑에 4가지 파일을 둔다. - usa_im.png - s_korea.png - word.txt - 중앙일보 스크롤링했던 기사 파일 my_text21.txt ■ 텍스트마이닝 데이터 정제 from wordcloud import WordCloud, STOPWORDS # 구두점(쉼표,마침표) 데이터 정제import matplotli..
웹 스크롤링 연습 (더 나은미래 신문) 1. '더 나은미래 신문사'에 들어간 뒤 '봉사' 검색 https://futurechosun.com/page/1?s=%EB%B4%89%EC%82%AC 로 이동 1, 2, 3, 페이지를 넘겨보면, https://futurechosun.com/page/1?s=%EB%B4%89%EC%82%AChttps://futurechosun.com/page/2?s=%EB%B4%89%EC%82%AChttps://futurechosun.com/page/3?s=%EB%B4%89%EC%82%AC 패턴인 것을 확인 2. 첫 페이지의 html코드를 파이썬으로 불러오기 #1 웹 스크롤링에 필요한 모듈 import 12from bs4 import BeautifulSoupimport urllib.request #2 첫 페이지의 url을 ..
웹 스크롤링 연습 ( 중앙 일보 기사 ) 1. 중앙 일보에 가서 '인공지능'을 검색해보자. 2. 맨 위의 기사 url 들어가서 복사해보기 https://news.joins.com/article/23947044그 밑 기사 url 주소https://news.joins.com/article/23946979그 밑 기사 url 주소https://news.joins.com/article/23946876 이렇게 주소들을 확인해보면 당연하지만 숫자가 불규칙하다. 왜냐면 내가 따로 기사들을 검색해서 조회한 결과기 때문에흩어져있던 기사들이 모였을뿐 원래 연속으로 쓰였던 게 아니니까 그래서 저번에 했던 것처럼 for 문으로 돌릴 수가 없다 3. 이렇게 나오도록전체 보기 > 한 뒤 맨 밑 번호에서 2로 이동한 뒤 다시 1로 돌아오기!url 주소에 page 번호가 명..
실전 웹 스크롤링 해보기 1 ( 시청자 게시판 반응 ) 웹 스크롤링 실전 1단계 ( ebs 레이디 버그 게시판 ) 아이들 댓글..인줄 알았는데 아니네?어쨌든 시청자 게시판의 반응들을 스크롤링 해보자 1. 저번에는 웹페이지에서 ctl+s 로 직접 웹페이지를 바탕화면에 저장한 뒤 불러왔지만이번에는 웹상의 url을 파이썬이 인식할 수 있도록 해주자. 123456from bs4 import BeautifulSoupimport urllib.requestlist_url="http://home.ebs.co.kr/ladybug/board/6/10059819/oneBoardList?hmpMnuld=1"url=urllib.request.Request(list_url)result=urllib.request.urlopen(url).read().decode('UTF-8')print..
크롤링 입문 - beautiful soup 모듈 beautiful soup 모듈 배우기 # beautiful soup 파이썬 코드를 복잡하게 작성하지 않아도편하게 웹스크롤링을 할 수 있도록여러 함수들을 제공하는 웹스크롤링 전문 모듈 1. 다음과 같은 내용이 담긴 html 문서를 data 폴더에 저장하기 2. html의 코드를 beautiful soup 모듈에서 사용할 수 있도록 파싱하고, 파싱된 내용 출력하기 1234from bs4 import BeautifulSoupf=open('c:\\data\\ecologicalpyramid.html')soup=BeautifulSoup(f,"html.parser")print(soup) 확인해보면, html 코드가 쫙 soup에 들어갔다. 3. 코드에서 name이라는 class에 접근해서, 데이터를 긁어오기 123..
HTML 기초 개념 * 데이터 분석 순서 데이터 수집 --> 데이터 유형 및 속성 파악 --> 데이터 변환 --> 데이터 저장 --> 데이터 정제 --> 데이터 분석 ~의 첫번째가 되는 데이터 수집~ 데이터 수집 기술 중 웹스크롤링 기술에 대해 알아보자. * HTMLHyper Text Markup Language의 약자로,여러 개의 태그(tag)를 연결해서 모아놓은 문서이다. 1. 메모장을 열고, 다음과 같이 작성 나는 오늘 점심시간에 순두부찌개를 먹었다. 여기서 저장할 때 꼭 파일 형식을 '모든 파일'로 하자 2. 바탕화면의 a.html 실행 3. 확인 오호.. 이제 여러가지 변화를 줘보자 메모장을 다시 열어서 변화를 준 뒤 저장을 하고, html 파일을 열면 업데이트된 것을 확인할 수 있다. # 글씨 진하게 하기 나는 ..