재무빅데이터분석사 FDA 2급 출제범위
이론 | 데이터베이스 |
|
기초회계 | 회계의 정의
|
|
기초통계 |
|
|
|
||
실기 | 파이썬기초 |
|
데이터 분석 (Fraudit 활용) |
|
기술통게학 / 추리통계학
1. 기술통계학(Descriptive statistics)
자료 수집을 통해 얻은 자료를 이용하여 주관이 섞일 수 있는 과정으 배제하여 정보를 단순히 요약하고 기술하는 것이다.
2. 추리통계학(Inference statistics)
기술통계로부터 얻어진 데이터로부터 유용한 정보를 추출하는 것을 말한다.
모집단에서 추출한 표본을 이용하여 표본의 특성값을 계산하고 모집단의 특징에관한 유용한 정보를 추출, 추론하는 것을 말한다.
기초통계량을 이용한 자료분석
방대한 데이터로부터 자료의 특성을 도출하기 위한 방법으로 기술통계량을 자주 활용한다.
1. 집중화(중심경향성) 측정 - mean, median, mode
집중화(중심경향성)은 자료가 어디에 집중되어있는지를 하나의 대표적인 값으로 요약하여 나타내는 통계량
- 평균(mean)
: 자료의 값을 모두 더하고 자료의 개수로 나눈 값
import numpy as np
li = [1, 2, 3, 4, 100, 200]
print(np.mean(li))
- 중앙값(median)
: 중앙값(중위수)는 list에 극단적인 값이 포함되어 있는 경우 평균에 큰 영향을 줄 수 있으므로 극단적인 값의 영향을 피하기위해 이용된다.
import numpy as np
li = [1, 2, 3, 4, 100, 200]
print(np.median(li))
- 최빈치(mode)
: 자료에서 가장 빈도가 높은 값을 구하는 방법, 극단적인 값에 영향을 받지 않고 하나 이상의 값이 될 수 있음
import numpy as np
from scipy import stats
li = [1, 2, 3, 4, 4, 100, 200]
m = stats.mode(li)
print(m)
li라는 list의 최빈값은 4이고 빈도는 2번임을 나타낸다
2. 산포경향 측정 - variance , 표준편차, 4분위 수
자료 분석을 위해서는 자료가 얼마나 흩어져 있는지 나타내는 산포 경향을 아는 것도 매우 중요하다
산표 경향을 측정하기 위해서는 분산, 표준편차, 범위, 4분위범위, 왜도, 첨도 등이 있다
- 분산(Variance)
분산은 평균을 중심으로 자료의 흩어진 정도를 측정하는 척도이다
import numpy as np
from scipy import stats
li = [1, 2, 3, 4, 4, 100, 200]
vp = np.var(li)
print(vp)
모분산의 변수 vp는 5137.2653의 값이 나온다.
import numpy as np
from scipy import stats
li = [1, 2, 3, 4, 4, 100, 200]
vp = np.var(li)
print(vp)
vs = 7*np.var(li)/6
print(vs)
리스트 li의 표본분산의 변수 vs는 5993.4751의 값이 나온다.
- 표준편차
분산에 양의 제곱근을 취한것으로 분산은 편차의 제곱으로 계산되는데 관측값들이 커질 수 있으므로 원래 관측값들의 산포의 경향을 나타낸다.
import numpy as np
from scipy import stats
li = [1, 2, 3, 4, 4, 100, 200]
sd = np.std(li)
print(sd)
- 4분위수
4분위수는 측정값을 낮은순에서 높은순으로 정렬한 뒤, 4분위했을 때 각 등위마다 해당하는 값을 의미한다.
1/4분위수(25%, quantile)
2/4분위수(50%, quantile)
3/4분위수(75%, quantile)
4/4분위수(100%, quantile)
import numpy as np
from scipy import stats
li = [1, 2, 3, 4, 4, 100, 200]
quantile1 = np.percentile(li, 25)
quantile2 = np.percentile(li, 50)
quantile3 = np.percentile(li, 75)
quantile4 = np.percentile(li, 100)
'데이터자격증 > 재무빅데이터분석사FDA2급 이론' 카테고리의 다른 글
재무빅데이터분석사(FDA 2급) - 확률 (0) | 2022.12.19 |
---|---|
재무빅데이터분석사(FDA 2급) - 자료의 척도와 형태 (0) | 2022.12.15 |
재무빅데이터분석사(FDA 2급) - 통계학, 변수, 모집단, 표본추출 (0) | 2022.12.13 |
재무빅데이터분석사(FDA 2급) - SQL, 데이터 조작어, JOIN문 (0) | 2022.12.13 |
재무빅데이터분석사(FDA 2급) - SQL(Structured Query Language) (0) | 2022.12.09 |
댓글