반응형
5. 데이터 확인
import pandas as pd
df = pd.read_excel('score.xlsx', index_col='지원번호')
df
이름 학교 키 국어 영어 수학 과학 사회 SW특기
지원번호
1번 채치수 북산고 197 90 85 100 95 85 Python
2번 정대만 북산고 184 40 35 50 55 25 Java
3번 송태섭 북산고 168 80 75 70 80 75 Javascript
4번 서태웅 북산고 187 40 60 70 75 80 NaN
5번 강백호 북산고 188 15 20 10 35 10 NaN
6번 변덕규 능남고 202 80 100 95 85 80 C
7번 황태산 능남고 188 55 65 45 40 35 PYTHON
8번 윤대협 능남고 190 100 85 90 95 95 C#
DataFrame 확인
df.describe()
키 국어 영어 수학 과학 사회
count 8.000000 8.000000 8.000000 8.000000 8.000000 8.000000
mean 188.000000 62.500000 65.625000 66.250000 70.000000 60.625000
std 9.985704 29.519969 26.917533 30.325614 23.754699 32.120032
min 168.000000 15.000000 20.000000 10.000000 35.000000 10.000000
25% 186.250000 40.000000 53.750000 48.750000 51.250000 32.500000
50% 188.000000 67.500000 70.000000 70.000000 77.500000 77.500000
75% 191.750000 82.500000 85.000000 91.250000 87.500000 81.250000
max 202.000000 100.000000 100.000000 100.000000 95.000000 95.000000
df.info()
<class 'pandas.core.frame.DataFrame'>
Index: 8 entries, 1번 to 8번
Data columns (total 9 columns):
# Column Non-Null Count Dtype
--- ------ -------------- -----
0 이름 8 non-null object
1 학교 8 non-null object
2 키 8 non-null int64
3 국어 8 non-null int64
4 영어 8 non-null int64
5 수학 8 non-null int64
6 과학 8 non-null int64
7 사회 8 non-null int64
8 SW특기 6 non-null object
dtypes: int64(6), object(3)
memory usage: 640.0+ bytes
df.head()#시작부터 n개의 데이터
이름 학교 키 국어 영어 수학 과학 사회 SW특기
지원번호
1번 채치수 북산고 197 90 85 100 95 85 Python
2번 정대만 북산고 184 40 35 50 55 25 Java
3번 송태섭 북산고 168 80 75 70 80 75 Javascript
4번 서태웅 북산고 187 40 60 70 75 80 NaN
5번 강백호 북산고 188 15 20 10 35 10 NaN
#끝에서 n개의 데이터
1
df.tail() #끝에서 n개의 데이터
이름 학교 키 국어 영어 수학 과학 사회 SW특기
지원번호
4번 서태웅 북산고 187 40 60 70 75 80 NaN
5번 강백호 북산고 188 15 20 10 35 10 NaN
6번 변덕규 능남고 202 80 100 95 85 80 C
7번 황태산 능남고 188 55 65 45 40 35 PYTHON
8번 윤대협 능남고 190 100 85 90 95 95 C#
values
df.values
array([['채치수', '북산고', 197, 90, 85, 100, 95, 85, 'Python'],
['정대만', '북산고', 184, 40, 35, 50, 55, 25, 'Java'],
['송태섭', '북산고', 168, 80, 75, 70, 80, 75, 'Javascript'],
['서태웅', '북산고', 187, 40, 60, 70, 75, 80, nan],
['강백호', '북산고', 188, 15, 20, 10, 35, 10, nan],
['변덕규', '능남고', 202, 80, 100, 95, 85, 80, 'C'],
['황태산', '능남고', 188, 55, 65, 45, 40, 35, 'PYTHON'],
['윤대협', '능남고', 190, 100, 85, 90, 95, 95, 'C#']], dtype=object)
df.index
df.index
Index(['1번', '2번', '3번', '4번', '5번', '6번', '7번', '8번'], dtype='object', name='지원번호')
umns
df.columns
Index(['이름', '학교', '키', '국어', '영어', '수학', '과학', '사회', 'SW특기'], dtype='object')
df.shape
df.shape
(8, 9)
Series 확인
df['키'].describe()
df['키'].describe()
count 8.000000
mean 188.000000
std 9.985704
min 168.000000
25% 186.250000
50% 188.000000
75% 191.750000
max 202.000000
Name: 키, dtype: float64
df['키'].min()
168
df['키'].max()
202
df['키'].nlargest(3)
지원번호
6번 202
1번 197
8번 190
Name: 키, dtype: int64
df['키'].mean()
188.0
df['키'].sum()
1504
df['SW특기'].count()
6
df['학교'].unique()
array(['북산고', '능남고'], dtype=object)
df['학교'].nunique()
2
반응형
'Python > pandas' 카테고리의 다른 글
데이터 분석 및 시각화 Pandas 데이터 분석 라이브러리 07. 데이터 선택 (loc) (0) | 2022.05.13 |
---|---|
데이터 분석 및 시각화 Pandas 데이터 분석 라이브러리 06. 데이터 선택 (기본) (0) | 2022.05.13 |
데이터 분석 및 시각화 Pandas 데이터 분석 라이브러리 04.파일저장 및 열기 (0) | 2022.05.13 |
데이터 분석 및 시각화 Pandas 데이터 분석 라이브러리 03.Index (0) | 2022.05.13 |
데이터 분석 및 시각화 Pandas 데이터 분석 라이브러리 02.DataFrame (0) | 2022.05.12 |