* 데이터 분석 순서
데이터 수집 --> 데이터 유형 및 속성 파악 --> 데이터 변환 --> 데이터 저장 --> 데이터 정제 --> 데이터 분석
~의 첫번째가 되는 데이터 수집~
데이터 수집 기술 중 웹스크롤링 기술에 대해 알아보자.
* HTML
Hyper Text Markup Language의 약자로,
여러 개의 태그(tag)를 연결해서 모아놓은 문서이다.
1. 메모장을 열고, 다음과 같이 작성
<html><head><title> 내 오늘 일정 </title></head>
<body>
<p class="title"> 나는 오늘 점심시간에 순두부찌개를 먹었다. </p>
</body>
</html>
여기서 저장할 때 꼭 파일 형식을 '모든 파일'로 하자
2. 바탕화면의 a.html 실행
3. 확인
오호..
이제 여러가지 변화를 줘보자
메모장을 다시 열어서 변화를 준 뒤 저장을 하고, html 파일을 열면 업데이트된 것을 확인할 수 있다.
# 글씨 진하게 하기 <b>
<html><head><title> 내 오늘 일정 </title></head>
<body>
<p class="title"><b> 나는 오늘 점심시간에 순두부찌개를 먹었다. </b> </p>
</body>
</html>
# 글씨에 밑줄 긋기 <u>
<html><head><title> 내 오늘 일정 </title></head>
<body>
<p class="title"><b><u> 나는 오늘 점심시간에 순두부찌개를 먹었다. </u></b> </p>
</body>
</html>
# 글씨를 기울임으로 변경하기 <i>
<html><head><title> 내 오늘 일정 </title></head>
<body>
<p class="title"><b><u><i> 나는 오늘 점심시간에 순두부찌개를 먹었다. </i></u></b></p>
</body>
</html>
# p 태그를 추가해서 제목과 내용을 나누기
<html><head><title> 내 오늘 일정 </title></head>
<body>
<p class="title"><b><u><i> 나의 오늘 점심 <i></u></b></p>
<p class="content">순두부찌개</p>
</body>
</html>
# html 문서의 본문에 링크를 걸기
<html><head><title> 내 오늘 일정 </title></head>
<body>
<p class="title"><b><u><i> 나의 오늘 점심 <i></u></b></p>
<p class="content">순두부찌개
<a href="https://github.com/UknowYunmo" class="github" id="koo">깃허브 바로가기</a>
</p>
</body>
</html>
* 워드 문서를 만들 때 그 안에 단원도 있고, 세부 목차도 있듯이
class에 그 html 문서의 특정 단원이라고 보면 되고,
id는 링크를 줄 때 부여하는 제목인데 id는 값이 unique 하다. (중복 방지)
'나 취준생 > 파이썬' 카테고리의 다른 글
실전 웹 스크롤링 해보기 1 ( 시청자 게시판 반응 ) (0) | 2020.12.16 |
---|---|
크롤링 입문 - beautiful soup 모듈 (0) | 2020.12.15 |
딕셔너리 (0) | 2020.12.10 |
파이썬으로 히스토그램 그래프 그리기 (0) | 2020.12.09 |
리스트 (0) | 2020.12.09 |