1. 호기심
•
집앞의 횡단보도를 자주 지나가는데, 횡단보도를 기다릴지 아닐지 늘 고민하면서 지나갑니다. 데이터를 수집해서 언제쯤 횡단보도가 바뀌는지, 그리고 이를 활용할 수 있는 분포는 뭐가 있는지 확인해봅니다.
2. 주변상황정보
•
횡단보도 기준 동편에는 1710세대, 서편에는 1068세대의 아파트 단지
•
횡단보도 바로 앞에 카페, 빠리바게트 등의 소규모 상가가 있으며, 도서관은 현재 운영 X
•
북쪽에 역시 대단지, 남쪽에는 공공기관이 있음
•
횡단보도를 이용하는 사람은 주민, 학생, 출퇴근 직장인들이 주류를 이루며, 10시/ 4시 정도에는 일부 유모차를 동반한 엄마가 등장
3. 데이터 수집
•
수기 수집
•
4차선도로이며 횡단보도 기준 빨간불 2분, 파란불 25초
•
제가 주로 이동하는 시간인 출퇴근/점심시간/퇴근 시간에 수시로 22개 기록, 데이터 프레임 변환
•
평균 4.1명, 중위 3.5, 표준편차 3.6명, IQR 기준 이상치 2개(13, 14)
•
시간대 분포
4. 분포 모델 검토
처음에는 포아송 분포라고 생각하고 호기심 발제
•
포아송 분포
◦
정의: 일정 시간 & 공간 내에 독립적으로 발생하는 사건의 횟수를 모델링
◦
특징
▪
사건은 서로 독립적으로 발생 → 맞음
▪
사건은 동시에 발생하지 않음 → 동시에 사람들이 도착하기도 함
▪
평균 발생률은 관측 구간 내 일정 → 맞음
▪
분산/평균의 값이 1임 → 아님 3.01임 (과산포임)
다른 조건이 어느정도 맞으나 분산과 평균이 같지 않아서 Claude가 음이항 분포를 추천함
•
음이항 분포
◦
정의: r번째 성공을 관측할 때 까지 필요한 시행 횟수나 성공 확률이 p인 베르누이 시행에서 r번의 성공을 관측할때까지 실패한 횟수의 분포
◦
특징
▪
분산이 평균보다 큰 과산포(overdispersion) 데이터에 적합
•
Ex) 특정 지역의 범죄 발생 건수(범죄가 특정 지역에 집중)
•
Ex2) 소비자 구매 행동(일부 고객이 훨씬 더 자주 구매)
◦
데이터에 과산포가 존재(분산> 평균) → 맞음
◦
사건 발생이 군집화 되는 경향이 있음 → 맞음 일부시간대 몰림
◦
개체별로 발생률에 차이가 있음 → 있을 수 있음(주부/학생 등)
◦
발생 확률이 시간에 따라 변할 수 있음 → 그러함
5. 분석(with claude)
1.
히스토그램 및 분포 시각화
2.
포아송 분포와 음이항 분포 적합
3.
적합도 검정 (카이제곱 검정)
4.
AIC 및 BIC를 사용한 모델 비교
분석코드 - 모델 선택
•
모델 비교 (AIC 및 BIC):
◦
포아송 모델 AIC: 126.3588
◦
음이항 모델 AIC: 111.9646
◦
포아송 모델 BIC: 127.4498
◦
음이항 모델 BIC: 114.1467
결론) 더 적합한 모델: 음이항 분포 (AIC 기준)
분석 코드 - 모수(성공 횟수 r, 성공확률 p) 구하기
•
모먼트 방법과 최대 우도 추정법이 있다고 함..
•
모먼트 방법이 쉬움
# 데이터의 평균과 분산 계산
mean = np.mean(data)
var = np.var(data, ddof=1) # 표본 분산
# 모수 추정
p = mean / var
r = mean * p / (1 - p)
Python
복사
6. 결론
•
눈으로 보기엔 포아송 분포가 더 잘 맞는거같은데 AIC기준으로는 음이항 분포가 더 잘맞다고 한다.
•
카이제곱을 검정을 쓰는 이유는 관측된 빈도와 분포의 기대 빈도와 비교하는 방법이기 떄문
•
AIC/BIC가 사용된 이유는 다른 통계 모델의 상대적 품질을 비교하는 지표이기 때문(상대적 평가)
•
음이항 분포의 모수
◦
r(성공 횟수): 1.94
◦
p(성공 확률): 0.32
◦
위 내용을 가지고 95%의 신뢰도로 보행자 수는 11명 (엥?) → 너무 많음
◦
한 50%정도만 넘어도 기다릴 가치는 있다고 생각됨
scipy를 이용한 누적확률 계산
•
누적확률 50% 이상은 3명, 3명 있으면 기다릴 가치가 있다.
7. 회고
•
포아송,음이항 분포 좀 다시 배우고 싶다.
•
내 상황에 적절한 분포를 선정하고 데이터를 수집하는게좋겠다.
•
균등한 데이터 수집을 위해서 하루종일 혹은 대표성을 띄는 시간에 주기적으로 측정하는게 좋겠다.
◦
Ex) 평일 오전 출근시간 가정 8-9시 집중관찰