본문 바로가기

전체 글

(191)
5-4) 범주형 변수 분석 #0. 준비단계 : 데이터셋 로드 및 라이브러리 import - 라이브러리 불러오기 -seaborn에 내장된 데이터셋 'mpg' 로드 #1. Count : 각 범주별 빈도수 세기 -1개 변수의 빈도수 => series : 변수. value_counts() -2개 변수 빈도수 => table : 데이터셋. crosstab( 변수1, 변수2) df['origin'].value_counts() pd.crosstab(df['origin'], df['cylinders'] ) - 빈도수 그래프=> countplot : 데이터셋. countplot( data=데이터셋, x= 변수1) #옵션 - hue : 범주별로 다른 색상 표현 #countplot ->origin 빈도수 시각화 하기 sns.countplot(data..
5-3) 수치형 데이터 변수의 요약과 기술통계 #0. 준비단계 : 데이터셋 로드 밑 라이브러리 import - 라이브러리 불러오기 -seaborn에 내장된 데이터셋 'mpg' 로드 #1. 고유값 파악하기 고유값 : 데이터셋.unique() 고유값 개수 : 데이터셋.nunique() #2. 히스토그램 그리기 - 데이터셋. hist(옵션들) -옵션1 : figsize = 그래프의 크기 -옵션2 : bins = 막대의 개수 - 왜도 : 분포의 치우침을 나타냄 => 양수 : 왼쪽에 몰린 형태 => 음수 : 왼쪽에 몰린 형태 => 구하는 식 : 데이터변수. skew() -첨도 : 분포의 몰린 정도(뾰족함)을 나타냄 : 3보다 클 경우 정규분포보다 납작 : 3보다 작을 경우 정규분포보다 뾰족 사용방법 : 데이터셋.kurt() ex) df.kurt() #3. s..
[MYSQL] 년, 월, 성별 별 상품 구매회원 수 구하기 >> 문제 설명 >>문제 USER_INFO 테이블과 ONLINE_SALE 테이블에서 1. 년, 월, 성별 별로 상품을 구매한 회원수를 집계하는 SQL문을 작성해주세요. 2. 결과는 년, 월, 성별을 기준으로 오름차순 정렬해주세요. 3. 이때, 성별 정보가 없는 경우 결과에서 제외해주세요. >>예시 >>막혔던 점 - 다양한 GROUP BY절 기준 - JOIN을 통한 각 변수 지정열 - USER_ID를 중복하여 셈(틀린 이유) >>틀린 코드 =>USER_ID가 중복되는 경우에도 USER를 중복하여 세 버림 >>고친 코드 => DISTINCT를 통한 중복열 제거
[MYSQL] 즐겨찾기가 가장 많은 식당 정보 출력하기 >> 문제 설명 >>문제 >>예시 >>막혔던 부분 : FOOD_TYPE으로 GROUP화하는 것까진 알겠음 => 그 다음엔? : 서브쿼리 작성에 대한 구상이 잘 안떠오름 >> 정답(WHERE 서브쿼리 절) => 서브쿼리절 설명(각 FOOD_TYPE별 가장 많은 즐겨찾기를 가진 식당들) => 즉, 먼저 최대 즐겨찾기 수들을 뽑아놓고 => 이것을 WHERE 서브쿼리로 하여 => 각 FOOD_TYPE과 MAX(FAVORITE)이 일치하는 식당들의 정보출력
5-2) 탐색적 데이터 도구 : pandas_profiling / sweetviz >>오늘 배운 것 List 1. pandas_profiling을 통한 report만들기 2. sweetviz를 통한 EDA 기술통계 report 1. Pandas_Profiling을 통한 report 작성 # pandas_profiling 설치 명령 프롬프트에 다음 코드를 입력해 pandas_profiling을 설치합시다 !pip install -U pandas-profiling 이후, 구글 코랩에서 런타임 다시 시작을 클릭한 후, 다시 첫 행부터 실행해줍시다. pandas_profiling에서 ProfileReport 기능을 임포트한 이후 profile 변수에 df 데이터셋에 대한 리포트를 저장합니다. colab 환경에서 profile을 불러오면 R프레임으로 보여주기 때문에 보기가 어렵습니다 따라서, ..
5-1) Pandas 기초와 데이터요약 List) 오늘 배운 것 1. 행/열/인덱스 함수 : shape, index, columns, values, dtypes 2.데이터살펴보기 : head/tail, sample, info, describe 3. 결측치 관련 함수 : 결측치 조회, 결측치 개수/비율 4.행/ 열 색인하기 : 슬라이싱, loc 먼저 라이브러리를 import 해줍시다 강의를 따라 dataset 예제는 seaborn에 있는 mpg(자동차 연비) 데이터셋을 변수 df에 저장해주었습니다. 그럼 pandas의 기초적인 기술통계 함수를 보겠습니다. 1. 행/열/인덱스 함수 (shape, index, columns, values,dtypes) 1-1. shape : 열과 행 모양 파악하기 >> [데이터셋 변수].shape ex) -df.s..
[Python] 백준 18870 : 좌표 압축 / 시간초과 극복 https://www.acmicpc.net/problem/18870 18870번: 좌표 압축 수직선 위에 N개의 좌표 X1, X2, ..., XN이 있다. 이 좌표에 좌표 압축을 적용하려고 한다. Xi를 좌표 압축한 결과 X'i의 값은 Xi > Xj를 만족하는 서로 다른 좌표의 개수와 같아야 한다. X1, X2, ..., XN에 좌 www.acmicpc.net >> 막혔던 점 : 시간초과가 뜸 원래 코드 - set으로 각 숫자를 오름차순으로 나열했을 때 인덱스 값으로 대체할 생각 =>but, 시간초과 뜸 => 문제원인 : 순차탐색으로 특정 값을 검색하려면 최대 O(n)의 시간이 걸림 : 따라서 키: 값 형식의 사전으로 시간 복잡도를 낮출 필요가 있음 ==> 고친 코드 dic={list_num_temp[i..
[Python] 백준 11718 : 그대로 출력하기 >>문제 https://www.acmicpc.net/problem/11718 11718번: 그대로 출력하기 입력이 주어진다. 입력은 최대 100줄로 이루어져 있고, 알파벳 소문자, 대문자, 공백, 숫자로만 이루어져 있다. 각 줄은 100글자를 넘지 않으며, 빈 줄은 주어지지 않는다. 또, 각 줄은 공백으로 시 www.acmicpc.net >> 막혔던 부분 - 몇개의 줄이 주어질지 모르는데? =>정확히는 입력이 끝났는데 입력을 받도록 대기하는 오류 : EOF(END of File) >>아이디어 try- except으로 흐름을 분기 입력이 있다면 -> 그대로 출력 입력이 없다면(EOF) -> break