본문 바로가기

데이터 분석

(29)
5-3) 수치형 데이터 변수의 요약과 기술통계 #0. 준비단계 : 데이터셋 로드 밑 라이브러리 import - 라이브러리 불러오기 -seaborn에 내장된 데이터셋 'mpg' 로드 #1. 고유값 파악하기 고유값 : 데이터셋.unique() 고유값 개수 : 데이터셋.nunique() #2. 히스토그램 그리기 - 데이터셋. hist(옵션들) -옵션1 : figsize = 그래프의 크기 -옵션2 : bins = 막대의 개수 - 왜도 : 분포의 치우침을 나타냄 => 양수 : 왼쪽에 몰린 형태 => 음수 : 왼쪽에 몰린 형태 => 구하는 식 : 데이터변수. skew() -첨도 : 분포의 몰린 정도(뾰족함)을 나타냄 : 3보다 클 경우 정규분포보다 납작 : 3보다 작을 경우 정규분포보다 뾰족 사용방법 : 데이터셋.kurt() ex) df.kurt() #3. s..
[MYSQL] 년, 월, 성별 별 상품 구매회원 수 구하기 >> 문제 설명 >>문제 USER_INFO 테이블과 ONLINE_SALE 테이블에서 1. 년, 월, 성별 별로 상품을 구매한 회원수를 집계하는 SQL문을 작성해주세요. 2. 결과는 년, 월, 성별을 기준으로 오름차순 정렬해주세요. 3. 이때, 성별 정보가 없는 경우 결과에서 제외해주세요. >>예시 >>막혔던 점 - 다양한 GROUP BY절 기준 - JOIN을 통한 각 변수 지정열 - USER_ID를 중복하여 셈(틀린 이유) >>틀린 코드 =>USER_ID가 중복되는 경우에도 USER를 중복하여 세 버림 >>고친 코드 => DISTINCT를 통한 중복열 제거
[MYSQL] 즐겨찾기가 가장 많은 식당 정보 출력하기 >> 문제 설명 >>문제 >>예시 >>막혔던 부분 : FOOD_TYPE으로 GROUP화하는 것까진 알겠음 => 그 다음엔? : 서브쿼리 작성에 대한 구상이 잘 안떠오름 >> 정답(WHERE 서브쿼리 절) => 서브쿼리절 설명(각 FOOD_TYPE별 가장 많은 즐겨찾기를 가진 식당들) => 즉, 먼저 최대 즐겨찾기 수들을 뽑아놓고 => 이것을 WHERE 서브쿼리로 하여 => 각 FOOD_TYPE과 MAX(FAVORITE)이 일치하는 식당들의 정보출력
5-2) 탐색적 데이터 도구 : pandas_profiling / sweetviz >>오늘 배운 것 List 1. pandas_profiling을 통한 report만들기 2. sweetviz를 통한 EDA 기술통계 report 1. Pandas_Profiling을 통한 report 작성 # pandas_profiling 설치 명령 프롬프트에 다음 코드를 입력해 pandas_profiling을 설치합시다 !pip install -U pandas-profiling 이후, 구글 코랩에서 런타임 다시 시작을 클릭한 후, 다시 첫 행부터 실행해줍시다. pandas_profiling에서 ProfileReport 기능을 임포트한 이후 profile 변수에 df 데이터셋에 대한 리포트를 저장합니다. colab 환경에서 profile을 불러오면 R프레임으로 보여주기 때문에 보기가 어렵습니다 따라서, ..
5-1) Pandas 기초와 데이터요약 List) 오늘 배운 것 1. 행/열/인덱스 함수 : shape, index, columns, values, dtypes 2.데이터살펴보기 : head/tail, sample, info, describe 3. 결측치 관련 함수 : 결측치 조회, 결측치 개수/비율 4.행/ 열 색인하기 : 슬라이싱, loc 먼저 라이브러리를 import 해줍시다 강의를 따라 dataset 예제는 seaborn에 있는 mpg(자동차 연비) 데이터셋을 변수 df에 저장해주었습니다. 그럼 pandas의 기초적인 기술통계 함수를 보겠습니다. 1. 행/열/인덱스 함수 (shape, index, columns, values,dtypes) 1-1. shape : 열과 행 모양 파악하기 >> [데이터셋 변수].shape ex) -df.s..