나 취준생 (163) 썸네일형 리스트형 웹 스크롤링 연습 ( 유튜브 댓글 ) 내가 최근에 빠진 권진아 노래의 댓글을 크롤링해보자. # 코드 설계 일단 나는 댓글 수를 먼저 알아야겠다고 생각했다. 왜냐면 유튜브 댓글의 구조가 밑으로 스크롤을 내릴 수록 댓글이 계속 나오는데, 모든 댓글을 스크롤링하려면 스크롤을 계속 반복해야하는데, 언제까지 반복할지는 알 수 없기 때문이다. 그래서 유튜브 댓글 창 맨 위에는 댓글 수가 적혀있어서, 그 html 코드를 따와서 댓글 수만 변수에 저장하고, 스크롤링할 때마다 몇 개씩 댓글이 추가되는지를 구해서, 그 수가 변수보다 커지면 멈추게 해야겠다고 생각했다. 댓글 수를 구하려면 일단 유튜브 창을 띄우고, 창을 최대화시킨 뒤, 스크롤을 한 번 내려야했다. 스크롤을 하지 않고 바로 html 코드를 찾으면 아예 나타나질 않기 때문. 따라서 browser... MYSQL, 파이썬 연동 # MYSQL 설치 후 기본 문법 1. mysql commend line client 실행 2. enter password: oracle ( 자기 비밀번호 ) 3. create database orcl ( DB 이름 ) 4. use orcl 5. 자기가 갖고 있는 테이블 쿼리문 입력 6. 테이블 확인 select * from emp; # 오라클과 MYSQL 함수 비교 오라클 --- MYSQL1. nvl ifnull2. sysdate sysdate()3. months_between group_concat4. decode if5. rollup with rollup6. listagg group_concat 예제 : 이름, 커미션을 출력하는데 커미션이 null인 사람은 0으로 출력하기 select ename, .. 오라클과 파이썬 연동하기 오라클과 파이썬 연동하기 연동오라클 database --------------- 파이썬 ( 통계구현, 시각화, 머신러닝, 업무자동화 ) 비즈니스 데이터(정형화된 데이터) 데이터의 구조에 따른 종류 3가지 1. 정형 데이터 : 관계형 데이터베이스(RDBMS)에 저장된 데이터2. 반정형 데이터 : html, 웹로그 데이터3. 비정형 데이터 : 텍스트(SNS), 동영상, 이미지 데이터 오라클을 파이썬과 연동하는 이유 1. 오라클 데이터베이스에서 실시간으로 변하는 데이터를CSV파일로 매번 내리려면 자주 내려야 하므로 그냥 연동시키는 게 편리하다 2. 파이썬의 통계 구현, 시각화, 머신러닝 구현, 업무 자동화를 사용 가능 3. 이미지를 숫자로 변환한 뒤 오라클 DB에 저장하여 관리하는 것이 가능하다.-> 백업 및.. 구글 이미지 크롤링 웹에 있는 사진을 크롤링 하는 방법 ( 구글 이미지 ) 셀레니움을 써서 마치 손으로 클릭해서 이미지를 저장하듯 저장을 하는데컴퓨터를 시켜서 이 과정을 자동화 시키는 방법으로 스크롤링을 한다. 1. 크롬 웹브라우저가 설치 되어있어야 한다.2. c 드라이브 밑에 chromedriver 폴더를 생성하고, chromedriver.exe를 넣는다.3. c 드라이브 밑에 gimages 폴더를 생성한다.4. 다운 받을 이미지의 키워드를 결정한다.5. 아나콘다 프롬프트 창을 열고 selenium을 설치conda install selenium 또는 pip install selenium 을 입력하면 설치가 진행된다. ----------------------------------------.. 감정 분석 + 워드 클라우드 웹 스크롤링한 데이터를 분석하는 예시 1. 신제품이 출시되었을 때 소비자들의 반응을 살펴보고자 할 때 -> 감정 분석2. 시기별 사회 현상을 파악하고자 할 때3. 인공지능 상담원 ( 딥러닝 RNN )4. 딥러닝 CNN의 신경망의 학습 자료 활용 데이터의 종류 3가지 1. 정형 데이터 : 정형화된 스키마 구조. DBMS에 저장될 수 있는 구조예 : Oracle 테이블, MYSQL, MSSQL 2. 반정형 데이터 : 데이터 내부의 데이터 구조에 대한 메타 정보가 포함된 구조의 데이터예 : html 문서, xml 문서 3. 비정형 데이터 : 웹스크롤링 기술로 수집해서 모은 데이터예 : 텍스트 파일, 이미지, 동영상 1. 조선일보에서 '봉사' 키워드로 웹 스크롤링 했던 bongsa.txt 파일 확인 2. 텍스트.. 워드 클라우드 그리기 # 파이썬에서 워드 클라우드 그리기 1. 아나콘다 프롬프트 창을 열고 wordcloud 패키지 설치 # 검색 - anaconda prompt conda install wordcloud 또는 pip install wordcloud 후 엔터 나는 전자의 경우 오류가 발생해서후자로 하니까 성공적으로 설치가 되었다. 2. c 드라이브 밑에 project 폴더를 생성 3. project 폴더 밑에 4가지 파일을 둔다. - usa_im.png - s_korea.png - word.txt - 중앙일보 스크롤링했던 기사 파일 my_text21.txt ■ 텍스트마이닝 데이터 정제 from wordcloud import WordCloud, STOPWORDS # 구두점(쉼표,마침표) 데이터 정제import matplotli.. 웹 스크롤링 연습 (더 나은미래 신문) 1. '더 나은미래 신문사'에 들어간 뒤 '봉사' 검색 https://futurechosun.com/page/1?s=%EB%B4%89%EC%82%AC 로 이동 1, 2, 3, 페이지를 넘겨보면, https://futurechosun.com/page/1?s=%EB%B4%89%EC%82%AChttps://futurechosun.com/page/2?s=%EB%B4%89%EC%82%AChttps://futurechosun.com/page/3?s=%EB%B4%89%EC%82%AC 패턴인 것을 확인 2. 첫 페이지의 html코드를 파이썬으로 불러오기 #1 웹 스크롤링에 필요한 모듈 import 12from bs4 import BeautifulSoupimport urllib.request #2 첫 페이지의 url을 .. 웹 스크롤링 연습 ( 중앙 일보 기사 ) 1. 중앙 일보에 가서 '인공지능'을 검색해보자. 2. 맨 위의 기사 url 들어가서 복사해보기 https://news.joins.com/article/23947044그 밑 기사 url 주소https://news.joins.com/article/23946979그 밑 기사 url 주소https://news.joins.com/article/23946876 이렇게 주소들을 확인해보면 당연하지만 숫자가 불규칙하다. 왜냐면 내가 따로 기사들을 검색해서 조회한 결과기 때문에흩어져있던 기사들이 모였을뿐 원래 연속으로 쓰였던 게 아니니까 그래서 저번에 했던 것처럼 for 문으로 돌릴 수가 없다 3. 이렇게 나오도록전체 보기 > 한 뒤 맨 밑 번호에서 2로 이동한 뒤 다시 1로 돌아오기!url 주소에 page 번호가 명.. 이전 1 ··· 5 6 7 8 9 10 11 ··· 21 다음