포아송회귀 예제

Ver Hoef와 Boveng는 준-푸아송(준-우도에 대한 과분분)과 음수 이항(감마-푸아송에 해당)의 차이를 다음과 같이 설명했습니다: E(Y)=μ, 준-푸아송 모델은 var(Y) = θμ를 가정합니다. 감마-푸아송은 var(Y) = μ(1 + θμ)를 가정하며, 여기서 θ는 준-푸아송 과분산 파라미터이고 θ는 음의 이항 분포의 형상 파라미터이다. 두 모델 모두 매개변수는 반복적으로 가중치가 다시 지정된 최소 제곱을 사용하여 추정됩니다. 준 푸아송의 경우 가중치는 μ/θ입니다. 음수 이항의 경우 가중치는 μ/(1 + θμ)입니다. 큰 μ와 상당한 엑스트라 푸아송 변형으로 음의 이항 분동은 1/θ로 제한됩니다. Ver Hoef와 Boveng는 평균 제곱 잔차를 플롯하여 둘 사이에서 선택한 예에 대해 논의했습니다. [4] 여기서 m은 데이터 세트의 예제 수이며 p (y i; e θ′ x i) {디스플레이 스타일 p(y_{i};e^{theta `x_{i}}}}}}}는 평균 세트가 있는 푸아송 분포의 확률 질량 함수입니다. 정규화는 이 최적화 문제에 추가될 수 있습니다[5] 우리는 먼저 술꾼인 학생의 성별 및 교외 상태가 음료 수와 어떻게 관련되는지에 대한 정보를 제공하는 “카운트 모델 계수”를 고려할 것입니다. 주말 동안 그 학생에 의해 보고. 이전 푸아송 회귀 모델에서 수행한 것처럼 해석의 용이성을 위해 각 계수를 기하급수적으로 조정합니다. 따라서, 마시는 사람들을 위해, 남성의 음료의 평균 수는 (e^{1.0209}) 또는 2.76 배 여성 (Z = 5.827, p < 0.001) 비슷한 설정에 살고있는 사람들을 비교하는 주어진, 즉, 모두 캠퍼스 또는 둘 다. 술을 마시는 사람들 중, 캠퍼스 밖에서 생활하는 학생들의 평균 음료 수는 (e^{0.4159}=1.52) 동성 학생의 캠퍼스에 거주하는 학생의 시간(Z = 2.021, p = 0.0433)입니다.

푸아송 회귀 모델은 응답이 연간 카운트이기 때문에 좋은 첫 번째 선택이지만, 다른 크기의 학교에서 온 것이기 때문에 카운트가 직접 비교되지 않는다는 점에 유의하는 것이 중요합니다. 이 문제를 샘플링 작업을 고려해야 한다고 도합니다. 즉, 영향을 받을 수 있는 학생이 더 많기 때문에 더 많은 학생이 있는 학교에서 폭력 범죄에 대한 보고가 더 많이 있을 것으로 예상됩니다. 데이터 세트의 첫 번째 학교에서 30 건의 폭력 범죄를 등록이 크게 다른 두 번째 학교의 폭력 범죄와 비교할 수 없습니다. 5,590 학교 1 대 540 학교 2. 다음 섹션에서 설명할 모델에 오프셋을 포함시켜 등록의 차이를 고려할 수 있습니다. EDA의 나머지 부분에서는 등록된 1,000당 비율(frac{textrm{폭력 범죄 수}}{textrm{번호 등록}} cdot 1000)의 비율로 폭력 범죄 수를 조사합니다. 그림 4.1은 (lambda)의 로그 함수를 사용하여 푸아송 회귀를 추론하기 위한 OLS 모델의 비교를 보여 줍니다. 예를 들어 위의 예제 3에 대한 데이터 집합을 시뮬레이션했습니다. 이 예에서 num_awards는 결과 변수이며 1년 동안 고등학교에서 학생이 획득한 상 수를 나타내며, 수학은 연속 예측 변수이며 수학 최종 시험에서 학생의 점수를 나타내며, 단면 예측 변수입니다.

학생이 등록한 프로그램의 유형을 나타내는 세 가지 수준으로 변수를 표시합니다.

This entry was posted in Uncategorized. Bookmark the permalink.

Comments are closed.