본문 바로가기
데이터자격증/재무빅데이터분석사FDA2급 이론

재무빅데이터분석사(FDA 2급) - 기술통계분석

by orangecode 2022. 12. 18.
728x90

재무빅데이터분석사 FDA 2급 출제범위

이론 데이터베이스
  • 데이터베이스 시스템
  • 관계형 데이터베이스 개요
  • 관계형 키
  • 기초 SQL
기초회계 회계의 정의
  • 회계의 기본가정, 회계등식
  • 회계상 거래, 복식부기의 원리
  • 회계등식, 재무제표의 구성요소
  • 분개, 전기, 시산표의 이해
  • 결산, 정산표, 회계의 순환과정
기초통계
  • 모집단과 표본
  • 자료의 척도와 형태
  • 기술통계분석
  • 확률, 확률변수와 확률분포
  • 표본분포와 추정
  • 상관분석과 선형회귀분석
 
  • 변수의 설정
  • 연산자와 복합연산자, 주석
  • 리스트, 튜플, 딕셔너리
실기 파이썬기초
  • if문과 for문
  • 리스트 컴프리헨션
  • 사용자정의함수, 람다함수
  • 전역변수와 지역변수
데이터 분석 (Fraudit 활용)
  • CSV, Excel 데이터 입력
  • 데이터의 Sorting
  • 데이터의 Filtering
  • 데이터의 Select
  • 데이터의 Duplicate, Gap 분석
  • 데이터의 Groupby, Summarize 분석
  • 데이터 테이블의 Join 분석
  • 데이터 Outlier 분석

 

기술통게학 / 추리통계학

1. 기술통계학(Descriptive statistics)

자료 수집을 통해 얻은 자료를 이용하여 주관이 섞일 수 있는 과정으 배제하여 정보를 단순히 요약하고 기술하는 것이다.

 

2. 추리통계학(Inference statistics)

기술통계로부터 얻어진 데이터로부터 유용한 정보를 추출하는 것을 말한다. 

모집단에서 추출한 표본을 이용하여 표본의 특성값을 계산하고 모집단의 특징에관한 유용한 정보를 추출, 추론하는 것을 말한다.

 

기초통계량을 이용한 자료분석

방대한 데이터로부터 자료의 특성을 도출하기 위한 방법으로 기술통계량을 자주 활용한다.

 

1. 집중화(중심경향성) 측정 - mean, median, mode

집중화(중심경향성)은 자료가 어디에 집중되어있는지를 하나의 대표적인 값으로 요약하여 나타내는 통계량

 

- 평균(mean)

: 자료의 값을 모두 더하고 자료의 개수로 나눈 값

import numpy as np

li = [1, 2, 3, 4, 100, 200]
print(np.mean(li))

 

- 중앙값(median)

: 중앙값(중위수)는 list에 극단적인 값이 포함되어 있는 경우 평균에 큰 영향을 줄 수 있으므로 극단적인 값의 영향을 피하기위해 이용된다.

 

import numpy as np

li = [1, 2, 3, 4, 100, 200]
print(np.median(li))

 

- 최빈치(mode)

: 자료에서 가장 빈도가 높은 값을 구하는 방법, 극단적인 값에 영향을 받지 않고 하나 이상의 값이 될 수 있음

import numpy as np
from scipy import stats

li = [1, 2, 3, 4, 4, 100, 200]
m = stats.mode(li)

print(m)

li라는 list의 최빈값은 4이고 빈도는 2번임을 나타낸다

 

 

2. 산포경향 측정 - variance , 표준편차, 4분위 수

자료 분석을 위해서는 자료가 얼마나 흩어져 있는지 나타내는  산포 경향을 아는 것도 매우 중요하다

산표 경향을 측정하기 위해서는 분산, 표준편차, 범위, 4분위범위, 왜도, 첨도 등이 있다

 

- 분산(Variance)

분산은 평균을 중심으로 자료의 흩어진 정도를 측정하는 척도이다

import numpy as np
from scipy import stats

li = [1, 2, 3, 4, 4, 100, 200]

vp = np.var(li)
print(vp)

모분산의 변수 vp는 5137.2653의 값이 나온다.

import numpy as np
from scipy import stats

li = [1, 2, 3, 4, 4, 100, 200]

vp = np.var(li)
print(vp)

vs = 7*np.var(li)/6
print(vs)

 리스트 li의 표본분산의 변수 vs는 5993.4751의 값이 나온다.

 

- 표준편차

분산에 양의 제곱근을 취한것으로 분산은 편차의 제곱으로 계산되는데 관측값들이 커질 수 있으므로 원래 관측값들의 산포의 경향을 나타낸다.

 

import numpy as np
from scipy import stats

li = [1, 2, 3, 4, 4, 100, 200]

sd = np.std(li)
print(sd)

 

- 4분위수

4분위수는 측정값을 낮은순에서 높은순으로 정렬한 뒤, 4분위했을 때 각 등위마다 해당하는 값을 의미한다.

1/4분위수(25%, quantile)

2/4분위수(50%, quantile)

3/4분위수(75%, quantile)

4/4분위수(100%, quantile)

 

import numpy as np
from scipy import stats

li = [1, 2, 3, 4, 4, 100, 200]

quantile1 = np.percentile(li, 25)
quantile2 = np.percentile(li, 50)
quantile3 = np.percentile(li, 75)
quantile4 = np.percentile(li, 100)

반응형

댓글