Search
🚥

횡단보도에 몇 명이 있어야 금방 신호가 파란색으로 바뀔까?

결과물 제출 여부
발표 참불
참여
일정
회원

1. 호기심

집앞의 횡단보도를 자주 지나가는데, 횡단보도를 기다릴지 아닐지 늘 고민하면서 지나갑니다. 데이터를 수집해서 언제쯤 횡단보도가 바뀌는지, 그리고 이를 활용할 수 있는 분포는 뭐가 있는지 확인해봅니다.

2. 주변상황정보

횡단보도 기준 동편에는 1710세대, 서편에는 1068세대의 아파트 단지
횡단보도 바로 앞에 카페, 빠리바게트 등의 소규모 상가가 있으며, 도서관은 현재 운영 X
북쪽에 역시 대단지, 남쪽에는 공공기관이 있음
횡단보도를 이용하는 사람은 주민, 학생, 출퇴근 직장인들이 주류를 이루며, 10시/ 4시 정도에는 일부 유모차를 동반한 엄마가 등장

3. 데이터 수집

수기 수집
4차선도로이며 횡단보도 기준 빨간불 2분, 파란불 25초
제가 주로 이동하는 시간인 출퇴근/점심시간/퇴근 시간에 수시로 22개 기록, 데이터 프레임 변환
평균 4.1명, 중위 3.5, 표준편차 3.6명, IQR 기준 이상치 2개(13, 14)
시간대 분포

4. 분포 모델 검토

처음에는 포아송 분포라고 생각하고 호기심 발제
포아송 분포
정의: 일정 시간 & 공간 내에 독립적으로 발생하는 사건의 횟수를 모델링
특징
사건은 서로 독립적으로 발생 → 맞음
사건은 동시에 발생하지 않음 → 동시에 사람들이 도착하기도 함
평균 발생률은 관측 구간 내 일정 → 맞음
분산/평균의 값이 1임 → 아님 3.01임 (과산포임)
다른 조건이 어느정도 맞으나 분산과 평균이 같지 않아서 Claude가 음이항 분포를 추천함
음이항 분포
정의: r번째 성공을 관측할 때 까지 필요한 시행 횟수나 성공 확률이 p인 베르누이 시행에서 r번의 성공을 관측할때까지 실패한 횟수의 분포
특징
분산이 평균보다 큰 과산포(overdispersion) 데이터에 적합
Ex) 특정 지역의 범죄 발생 건수(범죄가 특정 지역에 집중)
Ex2) 소비자 구매 행동(일부 고객이 훨씬 더 자주 구매)
데이터에 과산포가 존재(분산> 평균) → 맞음
사건 발생이 군집화 되는 경향이 있음 → 맞음 일부시간대 몰림
개체별로 발생률에 차이가 있음 → 있을 수 있음(주부/학생 등)
발생 확률이 시간에 따라 변할 수 있음 → 그러함

5. 분석(with claude)

1.
히스토그램 및 분포 시각화
2.
포아송 분포와 음이항 분포 적합
3.
적합도 검정 (카이제곱 검정)
4.
AIC 및 BIC를 사용한 모델 비교
분석코드 - 모델 선택
모델 비교 (AIC 및 BIC):
포아송 모델 AIC: 126.3588
음이항 모델 AIC: 111.9646
포아송 모델 BIC: 127.4498
음이항 모델 BIC: 114.1467
결론) 더 적합한 모델: 음이항 분포 (AIC 기준)
분석 코드 - 모수(성공 횟수 r, 성공확률 p) 구하기
모먼트 방법과 최대 우도 추정법이 있다고 함..
모먼트 방법이 쉬움
# 데이터의 평균과 분산 계산 mean = np.mean(data) var = np.var(data, ddof=1) # 표본 분산 # 모수 추정 p = mean / var r = mean * p / (1 - p)
Python
복사

6. 결론

눈으로 보기엔 포아송 분포가 더 잘 맞는거같은데 AIC기준으로는 음이항 분포가 더 잘맞다고 한다.
카이제곱을 검정을 쓰는 이유는 관측된 빈도와 분포의 기대 빈도와 비교하는 방법이기 떄문
AIC/BIC가 사용된 이유는 다른 통계 모델의 상대적 품질을 비교하는 지표이기 때문(상대적 평가)
음이항 분포의 모수
r(성공 횟수): 1.94
p(성공 확률): 0.32
위 내용을 가지고 95%의 신뢰도로 보행자 수는 11명 (엥?) → 너무 많음
한 50%정도만 넘어도 기다릴 가치는 있다고 생각됨
scipy를 이용한 누적확률 계산
누적확률 50% 이상은 3명, 3명 있으면 기다릴 가치가 있다.

7. 회고

포아송,음이항 분포 좀 다시 배우고 싶다.
내 상황에 적절한 분포를 선정하고 데이터를 수집하는게좋겠다.
균등한 데이터 수집을 위해서 하루종일 혹은 대표성을 띄는 시간에 주기적으로 측정하는게 좋겠다.
Ex) 평일 오전 출근시간 가정 8-9시 집중관찰