320x100
하둡에서 쉼표로 데이터를 구분해서 테이블에 넣게 하기 위하여
데이터 전처리를 해보자.
head movies.dat
으로 데이터를 간단히 확인
확인해보니 컬럼과 컬럼이 ::로 구분되어져 있다.
sed s/::/,/g movies.dat 을 해주면
이런 식으로 출력된다.
이걸 바로 저장해주자.
sed s/::/,/g movies.dat>>movies_coma.dat
head -5 movies_coma.dat
편안 -
(수정)
vi 편집기로 파일을 열고
:%s/[원본단어]/[바꿀단어]/[옵션]
옵션 없음 : 맨 앞 하나만
옵션 g : 싹 다
옵션 c : 물어보면서 싹 다
하는 방법도 있다.
반응형
'나 취준생 > 리눅스' 카테고리의 다른 글
scala에서 sql문을 실행한 결과를 파이썬에서 사용하기 (0) | 2021.01.12 |
---|---|
spark에 테이블 올리고, SQL 수행하는 법 (0) | 2021.01.12 |
hive (0) | 2021.01.08 |
리눅스 현재 디렉토리로 복사할 때 팁 (0) | 2021.01.07 |
하둡 (0) | 2021.01.07 |