본문 바로가기

데이터 분석/파이썬

(8)
[Python] 7570. 줄세우기(골3) / 그리디 목차 1. 문제 2. 핵심 아이디어 3. 코드 4. 배운 점 1. 문제 https://www.acmicpc.net/problem/7570 7570번: 줄 세우기 입력은 2 개의 줄로 이루어져 있다. 첫 줄에는 어린이 수를 나타내는 정수가 주어진다. 둘째 줄에는 처음에 줄서있는 어린이들의 번호가 차례대로 주어진다. 주어진 번호들 사이에는 공백이 하 www.acmicpc.net 2. 핵심 아이디어 처음에는 가장 긴 증가하는 수열만큼 아이들을 남기고 규칙에서 어긋나는 아이들만 재배치를 해주면 된다고 생각했다. 그래서 O(nlogn)으로 LIS 알고리즘을 구현해주었는데 틀렸다는 것을 보고 멘붕이 왔다. >>틀렸던 코드 import sys from bisect import bisect_left input = la..
[파이썬 실무 테크닉 100] ch3. 고객의 전체 모습을 파악하는 테크닉 10 >>문제 상황 : 스포츠 센터의 고객 수가 늘었으나 1년간 정체 중 회원구분 - 종일회원 : 언제나 사용가능 - 주간회원 : 낮에만 사용가능 - 야간회원 : 밤에만 사용가능 - 비정기적으로 입회비 무료행사/반액할인 - 월말까지 신청하면 다음달 탈퇴가 가능 >>테이블 명세 No. 파일이름 개요 1 use_log.csv 센터의 이용 이력 데이터, 기간은 2018.04 -2019.03 2 customer_master.csv 2019.03월 말 시점의 회원 데이터 3 class_master.csv 회원 구분 데이터(종일, 주간, 야간) 4 campaign_master.csv 행사 구분 데이터(입회비 유무 등) >>테크닉1. 데이터를 읽어 들이고 확인하자 uselog 데이터 import pandas as pd u..
[나도코딩] 데이터 분석 및 시각화 - matplotlib 요약 https://youtu.be/PjhlUzp_cU0 > matplotlib 가져오기 import matplotlib.pyplot as plt >plot x=[1,2,3] y=[2,4,8] plt.plot(x,y) #라인 출력 안하려면 plt.show() >title 설정 : plt.title('그래프 제목') > 축 설정(xlabel / ylabel) plt.xlabel('X축', color='red', loc='right')#left, center, right plt.ylabel('Y축', color='#00aa00', loc= 'top') # top, center, bottom >축 표시값 설정 (xticks / yticks) plt.xticks([1,2,3]) #x축의 범위를 1, 2, 3순으로 표..
[나도코딩] 데이터 분석 및 시각화 - Pandas 요약 https://youtu.be/PjhlUzp_cU0 >> pandas 불러오기 import pandas as pd 1. series : 1차원 데이터(정수, 실수, 문자열 등) > series 만들기 temp=pd.Series([-20,-10,10,20]) > series index 지정 temp=pd.Series([-20,-10,10,20], index=['Jan','Feb','Mar','Apr']) # 색인 temp['Jan'] #index Jan{1월}에 해당하는 데이터 출력 2. DataFrme : 2차원 데이터(정수, 실수, 문자열 등) #2차원 데이터 초기화 data={ '이름' : ['채치수','정대만',"송태섭","서태웅","강백호","변덕규","황태산","윤대협"] ,'학교' : ["북산..
5-4) 범주형 변수 분석 #0. 준비단계 : 데이터셋 로드 및 라이브러리 import - 라이브러리 불러오기 -seaborn에 내장된 데이터셋 'mpg' 로드 #1. Count : 각 범주별 빈도수 세기 -1개 변수의 빈도수 => series : 변수. value_counts() -2개 변수 빈도수 => table : 데이터셋. crosstab( 변수1, 변수2) df['origin'].value_counts() pd.crosstab(df['origin'], df['cylinders'] ) - 빈도수 그래프=> countplot : 데이터셋. countplot( data=데이터셋, x= 변수1) #옵션 - hue : 범주별로 다른 색상 표현 #countplot ->origin 빈도수 시각화 하기 sns.countplot(data..
5-3) 수치형 데이터 변수의 요약과 기술통계 #0. 준비단계 : 데이터셋 로드 밑 라이브러리 import - 라이브러리 불러오기 -seaborn에 내장된 데이터셋 'mpg' 로드 #1. 고유값 파악하기 고유값 : 데이터셋.unique() 고유값 개수 : 데이터셋.nunique() #2. 히스토그램 그리기 - 데이터셋. hist(옵션들) -옵션1 : figsize = 그래프의 크기 -옵션2 : bins = 막대의 개수 - 왜도 : 분포의 치우침을 나타냄 => 양수 : 왼쪽에 몰린 형태 => 음수 : 왼쪽에 몰린 형태 => 구하는 식 : 데이터변수. skew() -첨도 : 분포의 몰린 정도(뾰족함)을 나타냄 : 3보다 클 경우 정규분포보다 납작 : 3보다 작을 경우 정규분포보다 뾰족 사용방법 : 데이터셋.kurt() ex) df.kurt() #3. s..
5-2) 탐색적 데이터 도구 : pandas_profiling / sweetviz >>오늘 배운 것 List 1. pandas_profiling을 통한 report만들기 2. sweetviz를 통한 EDA 기술통계 report 1. Pandas_Profiling을 통한 report 작성 # pandas_profiling 설치 명령 프롬프트에 다음 코드를 입력해 pandas_profiling을 설치합시다 !pip install -U pandas-profiling 이후, 구글 코랩에서 런타임 다시 시작을 클릭한 후, 다시 첫 행부터 실행해줍시다. pandas_profiling에서 ProfileReport 기능을 임포트한 이후 profile 변수에 df 데이터셋에 대한 리포트를 저장합니다. colab 환경에서 profile을 불러오면 R프레임으로 보여주기 때문에 보기가 어렵습니다 따라서, ..
5-1) Pandas 기초와 데이터요약 List) 오늘 배운 것 1. 행/열/인덱스 함수 : shape, index, columns, values, dtypes 2.데이터살펴보기 : head/tail, sample, info, describe 3. 결측치 관련 함수 : 결측치 조회, 결측치 개수/비율 4.행/ 열 색인하기 : 슬라이싱, loc 먼저 라이브러리를 import 해줍시다 강의를 따라 dataset 예제는 seaborn에 있는 mpg(자동차 연비) 데이터셋을 변수 df에 저장해주었습니다. 그럼 pandas의 기초적인 기술통계 함수를 보겠습니다. 1. 행/열/인덱스 함수 (shape, index, columns, values,dtypes) 1-1. shape : 열과 행 모양 파악하기 >> [데이터셋 변수].shape ex) -df.s..