AI
[부스트캠프 AI Tech] day9
전종구
2021. 1. 28. 16:23
Review
이산확률변수 vs 연속확률변수
- 문제에 맞게 손실함수를 적절히 사용하기위해 확률론을 공부하자.
- 이산확률변수란 연속되지 않는 변수를 뜻하고,(ex. 횟수,요일...) 연속확률 변수란 연속되는 변수를 뜻한다.(ex. 키,몸무게..)
- 데이터 공간에서 연속확률변수를 구간을 나눠 샘플링을 통해 이산확률변수로 바꿔 사용하기도 한다.
pandas.groupby
- 통상적으로 split => apply => combine 과정을 거친다.
- 하나 또는 여러개 항목을 기준으로 묶어 sum,mean등 각종 연산을 지원한다.
- 레벨을 지정해주면 series 데이터형으로 바뀌므로 각종 연산이 가능하다.
기대값
- 확률분포가 주어지면 데이터를 분석하는데 사용 가능한 여러종류의 통계적 범함수를 계산할 수 있다.
- 기대값은 데이터를 대표하는 통계량이면서 동시에 확률분포를 통해 다른 통계적 범함수를 계산하는데 사용된다.
Numpy & Pandas
- Numpy는 같은 데이터타입의 다차원배열을 지원하고, 난수생성이가능하며 연산가능하다.
- Pandas는 서로 다른 데이터타입을 담을 수 있다.
몬테카를로 샘플링
- 확률분포를 명시적으로 모를 경우, 데이터를 이용해 기대값을 계산하려면 몬테카를로 샘플링 방법을 사용한다.(이산&연속 둘다 사용가능)
- 적분이 힘들경우 기댓값들의 합에 밑변(x,y 2차원이라고 가정할때) 즉, x의 범위를 곱해주면 기존식에 근사할 수 있다.
느낀점
- 어제와 마찬가지로 pandas로 데이터를 다루는 방법들에 대하여 공부하였고, 몬테카를로 샘플링과, 기댓값, 이산확률변수, 연속확률변수 등 모델을 효율적으로 구성하기 위한 개념들에 대해 공부할 수 있었다. 알찬 시간이었다.
Peer Session
- 배운 내용에 대하여 이야기 해보았고, 특히 오늘 배운 몬테카를로에 대한 이해와 각종 개념들에 대한 이해가 쉽지않아서 주어진 피피티를 가지고 같이 고민해 보는 시간을 가졌다. 추가적으로 내일 피어세션때 공부한 내용을 바탕으로 짧게 발표할 조원들이 어떤 주제에 대하여 발표할 지 설명하는 시간을 가졌다.