1.7 통계적 변환 막대그래프 (Bar plot) 막대그래프는 플롯에 대해 미묘한 것을 드러내기 때문에 흥미로운 차트이다. 막대그래프는 geom_bar() 로 그릴 수 있다. 다음은 diamond 데이터셋에서 cut으로 그룹한 다이아몬드의 총 개수를 나타낸다. diamonds 데이터 셋은 54000여개의 다이몬드를 대상으로 크기(carat), 컷팅레벨(cut), 색(color), 투명도(clarity) 등이 조사되어 있다. ggplot(data = diamonds) + geom_bar(mapping = aes(x = cut)) 위의 코드에서도 알 수 있듯이 y축에 count는 diamonds의 변수가 아니다. count는 데이터셋의 원 값으로 플롯을 그린다. 막대그래프와 같은 다른 그래프는 플롯으로 그릴..
# 1) ggplot(data = mpg)+ geom_point(mapping = aes(x = displ, y = hwy)) # 2) ggplot(data = mpg)+ geom_smooth(mapping = aes(x = displ, y = hwy)) 플롯은 동일한 x변수, y변수를 포함하고, 동일한 데이터를 나타낸다. 그러나 데이터를 표현하는 시각 객체가 다르다. 이는 다른 지옴의 유형을 사용하기 때문을 알 수 있다. 지옴(geom) 지옴(geom)은 데이터를 나타내기 위해 플롯이 사용하는 기하 객체(geometric object)를 의미한다. 따라서 위의 플롯은 산점도를 나타내는 포인트 지옴(geom_point)을 사용했고, 아래는 평활 지옴(geom_smooth), 즉 데이터에 적합된 평활선을 ..
1. 단일행 서브쿼리 특정 쿼리에서 검색한 값을 다른 쿼리에서 받아 검색하려면 서브 쿼리를 사용해야 한다. EX ) JONES 보다 더 많은 월급을 받는 사원들의 이름과 월급을 출력하라 JONES 보다 더 많은 월급을 받는 사원의 정보를 조회하기 위해서는 JONES의 월급을 알아야 한다. -- JONES의 월급 SELECT SAL FROM EMP WHERE ENAME = 'JONES'; JONES의 월급을 검색한 결과, 2975임을 알 수 있다. 이를 바탕으로 위의 문제를 해결할 수 있다. -- JONES 보다 더 많은 월급을 받는 사원 SELECT ENAME, SAL FROM EMP WHERE SAL > 2975; 여기서 위의 쿼리에서 2975라는 값은 첫번째 검색했던 JONES의 월급을 검색하는 쿼리..
1.5 facet facet_wrap() 변수를 추가하는 방법으로 심미성을 이용하는 방법 외에 플롯을 면분할(facet)로 나누는 것으로, 이는 범주형 변수에 특히 유용하다. 하나의 변수에 대해 면분할 하기 위해서는 facet_wrap() 을 이용한다. facet_wrap() 의 첫 번째 인수로는 ~와 뒤에 변수 이름이 나오는 공식이어야 하며, facet_wrap() 에 전달하는 변수는 이산형이어야 한다. ggplot(data = mpg)+ geom_point(mapping = aes(x = displ, y = hwy)) + facet_wrap(~ class, nrow = 2) facet_grid() 플롯을 두 변수 조합으로 면분할하기 위해서는 facet_wrap() 를 플롯 호출에 추가하면 된다. fa..
※ 아래 내용은 인프런 강의 공공데이터로 파이썬 데이터 분석 시작하기 강의로 부터 작성된 코드 요약본 입니다. ※ 아래 과정은 지난 포스팅에서 정리한 groupby, pivot_table을 바탕으로 작성되었습니다. [Python] 데이터 로드 및 전처리 ※ 아래 내용은 인프런 강의 공공데이터로 파이썬 데이터 분석 시작하기 강의로 부터 작성된 코드 요약본 입니다. 공공데이터로 파이썬 데이터 분석 시작하기 - 인프런 | 강의 이디야는 스타벅 seoyuun22.tistory.com 1. python에서 그래프를 위한 한글폰트 설정하기 # font_name 자리에는 사용자의 폰트명을 입력 import matplotlib.pyplot as plt plt.rc("font", family = "font_name") ..
1.3 심미성 매핑 심미성은 플롯 객체들의 시각적 속성이다. 심미성에는 점의 크기, 모양, 색상 같은 것들이 포함된다. 심미성 속성값을 변경하여 점을 다른방법으로 표시할 수 있다. 앞으로 여기서는 심미성 속성을 설명할 때는 수준(level)이라는 용어를 사용한다. Color mapping example ggplot(data=mpg)+ geom_point(mapping = aes(x = displ, y = hwy, color = class)) 플롯 오른쪽에서 이상값으로 의심되는 데이터의 색상들을 보면 이상값 중 다수가 2인승차(2seater)임을 보여준다 이 차들은 스포츠카들이다. 스포츠카들은 SUV와 픽업트럭처럼 엔진이 크지만 차체가 중형차나 소형차처럼 작아서 연비가 좋다 심미성을 변수에 매핑하기 위해서..
1.2 첫 단계 데이터 불러오기 mpg : 미 환경보호당국이 수집한 38개 차 모델들에 대한 관측 값 데이터프레임 # package::function() ggplot2::mpg package::function() 어떤 함수나 데이터셋이 어느 패키지에서 왔는지 명시해야 하는 경우 # 데이터 불러오기기 data(mpg) head(mpg) 분석 목적 mpg데이터를 이용한 엔진 크기와 연비의 관계 살펴보기 필요한 변수 displ : 엔진 크기 hwy : 고속도로에서의 자동차 연비. 같은 거리를 주행할 때 연비가 낮은 차는 연비가 높은 차보다 연료를 더 많이 소비 ggplot 생성 ggplot(data = mpg) + geom_point(mapping = aes(x = displ, y = hwy)) 그래프를 통해..
join은 크게 oracle join과 ANSI/ISO SQL:1999 standard이 있다 이전에 포스팅한 EQUI JOIN, NON EQUI JOIN, OUTER JOIN, SELF JOIN과 같은 문법을 ORACLE JOIN이라 하고, 오늘 배울 ON절, USING절, NATRUAL JOIN, LEFT/RIGHT OUTER JOIN은 모두 ORALCE 9i 버전부터 지원하는 문법. 두 문법은 작성 SQL의 차이만 있을 뿐 성능의 차이는 없음 1. ON절 ON절은 ORACLE 작성법에서 사용했던 WHERE절을 대신해 JOIN에 대한 조건을 쓸 때 사용한다. 예를 들어 사원의 이름과 부서 위치를 출력하는 경우, 두 방법의 작성법을 비교하면 아래와 같다. -- oracle EQUI JOIN SELECT..
1. EQUI JOIN 서로 다른 테이블에 있는 컬럼들의 데이터를 하나의 결과로 조인해서 출력하기 위해 EQUI JOIN을 사용한다. 예를 들어사원테이블과 부서 테이블을 조인하여 이름과 부서 위치를 출력할 경우 아래와 같이 쿼리를 작성한다. SELECT ename, loc FROM EMP, DEPT WHERE EMP.deptno = DEPT.deptno; EMP와 DEPT 테이블을 서로 조인하기 위해선느 조인 조건이 있어야 한다. 조인 조건을 두개의 테이블을 연결하기 위한 연결고리이다. 여기서 조인 조건이 EMP 테이블의 부서 번호가 DEPT 테이블의 부서 번호와 같다라는 조건( : EMP.deptno = DEPT.deptno) 처럼 조인 조건이 이퀄(=)이면 EQUI JOIN이라한다. ※ 검색조건과 조..
※ 아래 내용은 인프런 강의 공공데이터로 파이썬 데이터 분석 시작하기 강의로 부터 작성된 코드 요약본 입니다. 공공데이터로 파이썬 데이터 분석 시작하기 - 인프런 | 강의 이디야는 스타벅스 근처에 입점한다는 설이 있었습니다. 과연 이디야와 스타벅스의 매장입지는 얼마나 차이가 날까요? 2013년부터 2019년까지 부동산 가격 변동 추세가 아파트 분양가에도 반영될 www.inflearn.com 1. 데이터를 로드하기 위해 pandas 라이브러리 불러오기 import pandas as pd 2. 데이터 로드 - 데이터 불러오기(인코딩) df = pd.read.csv("데이터 경로") # 한글이 포함된 파일의 경우 인코딩이 필요함 df = pd.read.csv("데이터 경로", encoding = "cp9494..