132 lines
5.1 KiB
TeX
132 lines
5.1 KiB
TeX
\section{Oppgave 4: Utvalgsforsøk}
|
|
|
|
\subsection{Tema}
|
|
I denne delen undersøker vi hvordan regresjonslinjen og intervallestimatene endrer seg
|
|
når vi bare bruker tilfeldige delutvalg av observasjonene.
|
|
|
|
\subsection{a) 50 runder med \(N = 5\)}
|
|
Vi trekker 50 tilfeldige utvalg med \(N = 5\), finner regresjonslinjen for hvert utvalg,
|
|
og tegner alle linjene i samme figur.
|
|
|
|
\begin{figure}[H]
|
|
\centering
|
|
\includegraphics[width=0.8\textwidth]{images/task4a_lines_N5.png}
|
|
\caption{50 regresjonslinjer basert på utvalg med \(N=5\).}
|
|
\end{figure}
|
|
|
|
Det vi forventer å se, er stor variasjon fra linje til linje fordi utvalgene er små.
|
|
|
|
\subsection{b) 50 runder med \(N = 15, 50, 200\)}
|
|
Vi gjentar samme prosedyre for større utvalg. Når \(N\) øker, bør linjene samle seg mer
|
|
rundt regresjonslinjen for hele datasettet.
|
|
|
|
\begin{figure}[H]
|
|
\centering
|
|
\includegraphics[width=0.8\textwidth]{images/task4b_lines_N15.png}
|
|
\caption{Regresjonslinjer for \(N=15\).}
|
|
\end{figure}
|
|
|
|
\begin{figure}[H]
|
|
\centering
|
|
\includegraphics[width=0.8\textwidth]{images/task4b_lines_N50.png}
|
|
\caption{Regresjonslinjer for \(N=50\).}
|
|
\end{figure}
|
|
|
|
\begin{figure}[H]
|
|
\centering
|
|
\includegraphics[width=0.8\textwidth]{images/task4b_lines_N200.png}
|
|
\caption{Regresjonslinjer for \(N=200\).}
|
|
\end{figure}
|
|
|
|
\subsection{c) Oppgave 3c gjentatt 50 ganger med \(N = 5\)}
|
|
Her beregner vi 80\%-intervallestimatet for stigningstallet \(b\) i 50 runder med
|
|
\(N=5\), og tegner intervallene samlet i én figur.
|
|
|
|
\begin{figure}[H]
|
|
\centering
|
|
\includegraphics[width=0.8\textwidth]{images/task4c_b_intervals_N5.png}
|
|
\caption{50 intervallestimater for \(b\) når \(N=5\).}
|
|
\end{figure}
|
|
|
|
Små utvalg vil typisk gi brede intervaller og stor variasjon mellom rundene.
|
|
|
|
\subsection{d) Samme analyse for \(N = 15, 50, 200\)}
|
|
Når vi øker \(N\), blir intervallene vanligvis smalere, og estimatene for \(b\) blir mer
|
|
stabile.
|
|
|
|
\begin{figure}[H]
|
|
\centering
|
|
\includegraphics[width=0.8\textwidth]{images/task4d_b_intervals_N15.png}
|
|
\caption{Intervallestimater for \(b\) når \(N=15\).}
|
|
\end{figure}
|
|
|
|
\begin{figure}[H]
|
|
\centering
|
|
\includegraphics[width=0.8\textwidth]{images/task4d_b_intervals_N50.png}
|
|
\caption{Intervallestimater for \(b\) når \(N=50\).}
|
|
\end{figure}
|
|
|
|
\begin{figure}[H]
|
|
\centering
|
|
\includegraphics[width=0.8\textwidth]{images/task4d_b_intervals_N200.png}
|
|
\caption{Intervallestimater for \(b\) når \(N=200\).}
|
|
\end{figure}
|
|
|
|
\subsection{e) Illustrasjoner som i oppgave 3f}
|
|
Til slutt lager vi figurer med regresjonslinje og tilhørende 80\%-kredibilitetsbånd for
|
|
utvalg med \(N = 5, 15, 50\) og \(200\).
|
|
|
|
\begin{figure}[H]
|
|
\centering
|
|
\includegraphics[width=0.8\textwidth]{images/task4e_bands_N5.png}
|
|
\caption{Kredibilitetsbånd for \(N=5\).}
|
|
\end{figure}
|
|
|
|
\begin{figure}[H]
|
|
\centering
|
|
\includegraphics[width=0.8\textwidth]{images/task4e_bands_N15.png}
|
|
\caption{Kredibilitetsbånd for \(N=15\).}
|
|
\end{figure}
|
|
|
|
\begin{figure}[H]
|
|
\centering
|
|
\includegraphics[width=0.8\textwidth]{images/task4e_bands_N50.png}
|
|
\caption{Kredibilitetsbånd for \(N=50\).}
|
|
\end{figure}
|
|
|
|
\begin{figure}[H]
|
|
\centering
|
|
\includegraphics[width=0.8\textwidth]{images/task4e_bands_N200.png}
|
|
\caption{Kredibilitetsbånd for \(N=200\).}
|
|
\end{figure}
|
|
|
|
\subsection{Kommentar}
|
|
Hovedpoenget i denne oppgaven er å se hvordan usikkerheten minker når utvalgsstørrelsen
|
|
øker. Små utvalg gir mer ustabile linjer og bredere intervaller, mens store utvalg gir mer
|
|
presise estimater og tydeligere mønstre.
|
|
|
|
\subsection{R-kode}
|
|
Listing~\ref{lst:task4-r} viser delen av skriptet som trekker delutvalg og lager figurene
|
|
for oppgave 4.
|
|
|
|
\begin{listing}[H]
|
|
\begin{minted}{r}
|
|
plot_many_sample_lines(dice_df, sample_size = 5, rounds = 50, file_name = "task4a_lines_N5.png")
|
|
plot_many_sample_lines(dice_df, sample_size = 15, rounds = 50, file_name = "task4b_lines_N15.png")
|
|
plot_many_sample_lines(dice_df, sample_size = 50, rounds = 50, file_name = "task4b_lines_N50.png")
|
|
plot_many_sample_lines(dice_df, sample_size = 200, rounds = 50, file_name = "task4b_lines_N200.png")
|
|
|
|
plot_many_b_intervals(dice_df, sample_size = 5, rounds = 50, level = 0.80, file_name = "task4c_b_intervals_N5.png")
|
|
plot_many_b_intervals(dice_df, sample_size = 15, rounds = 50, level = 0.80, file_name = "task4d_b_intervals_N15.png")
|
|
plot_many_b_intervals(dice_df, sample_size = 50, rounds = 50, level = 0.80, file_name = "task4d_b_intervals_N50.png")
|
|
plot_many_b_intervals(dice_df, sample_size = 200, rounds = 50, level = 0.80, file_name = "task4d_b_intervals_N200.png")
|
|
|
|
plot_many_credible_bands(dice_df, sample_size = 5, rounds = 50, level = 0.80, file_name = "task4e_bands_N5.png")
|
|
plot_many_credible_bands(dice_df, sample_size = 15, rounds = 50, level = 0.80, file_name = "task4e_bands_N15.png")
|
|
plot_many_credible_bands(dice_df, sample_size = 50, rounds = 50, level = 0.80, file_name = "task4e_bands_N50.png")
|
|
plot_many_credible_bands(dice_df, sample_size = 200, rounds = 50, level = 0.80, file_name = "task4e_bands_N200.png")
|
|
\end{minted}
|
|
\caption{R-kode for gjentatte delutvalg og intervallillustrasjoner}
|
|
\label{lst:task4-r}
|
|
\end{listing}
|