Files
MA-223/Oblig/3c/latex/sections/task4_utvalgsforsok.tex
2026-04-28 15:30:52 +02:00

132 lines
5.1 KiB
TeX

\section{Oppgave 4: Utvalgsforsøk}
\subsection{Tema}
I denne delen undersøker vi hvordan regresjonslinjen og intervallestimatene endrer seg
når vi bare bruker tilfeldige delutvalg av observasjonene.
\subsection{a) 50 runder med \(N = 5\)}
Vi trekker 50 tilfeldige utvalg med \(N = 5\), finner regresjonslinjen for hvert utvalg,
og tegner alle linjene i samme figur.
\begin{figure}[H]
\centering
\includegraphics[width=0.8\textwidth]{images/task4a_lines_N5.png}
\caption{50 regresjonslinjer basert på utvalg med \(N=5\).}
\end{figure}
Det vi forventer å se, er stor variasjon fra linje til linje fordi utvalgene er små.
\subsection{b) 50 runder med \(N = 15, 50, 200\)}
Vi gjentar samme prosedyre for større utvalg. Når \(N\) øker, bør linjene samle seg mer
rundt regresjonslinjen for hele datasettet.
\begin{figure}[H]
\centering
\includegraphics[width=0.8\textwidth]{images/task4b_lines_N15.png}
\caption{Regresjonslinjer for \(N=15\).}
\end{figure}
\begin{figure}[H]
\centering
\includegraphics[width=0.8\textwidth]{images/task4b_lines_N50.png}
\caption{Regresjonslinjer for \(N=50\).}
\end{figure}
\begin{figure}[H]
\centering
\includegraphics[width=0.8\textwidth]{images/task4b_lines_N200.png}
\caption{Regresjonslinjer for \(N=200\).}
\end{figure}
\subsection{c) Oppgave 3c gjentatt 50 ganger med \(N = 5\)}
Her beregner vi 80\%-intervallestimatet for stigningstallet \(b\) i 50 runder med
\(N=5\), og tegner intervallene samlet i én figur.
\begin{figure}[H]
\centering
\includegraphics[width=0.8\textwidth]{images/task4c_b_intervals_N5.png}
\caption{50 intervallestimater for \(b\) når \(N=5\).}
\end{figure}
Små utvalg vil typisk gi brede intervaller og stor variasjon mellom rundene.
\subsection{d) Samme analyse for \(N = 15, 50, 200\)}
Når vi øker \(N\), blir intervallene vanligvis smalere, og estimatene for \(b\) blir mer
stabile.
\begin{figure}[H]
\centering
\includegraphics[width=0.8\textwidth]{images/task4d_b_intervals_N15.png}
\caption{Intervallestimater for \(b\) når \(N=15\).}
\end{figure}
\begin{figure}[H]
\centering
\includegraphics[width=0.8\textwidth]{images/task4d_b_intervals_N50.png}
\caption{Intervallestimater for \(b\) når \(N=50\).}
\end{figure}
\begin{figure}[H]
\centering
\includegraphics[width=0.8\textwidth]{images/task4d_b_intervals_N200.png}
\caption{Intervallestimater for \(b\) når \(N=200\).}
\end{figure}
\subsection{e) Illustrasjoner som i oppgave 3f}
Til slutt lager vi figurer med regresjonslinje og tilhørende 80\%-kredibilitetsbånd for
utvalg med \(N = 5, 15, 50\) og \(200\).
\begin{figure}[H]
\centering
\includegraphics[width=0.8\textwidth]{images/task4e_bands_N5.png}
\caption{Kredibilitetsbånd for \(N=5\).}
\end{figure}
\begin{figure}[H]
\centering
\includegraphics[width=0.8\textwidth]{images/task4e_bands_N15.png}
\caption{Kredibilitetsbånd for \(N=15\).}
\end{figure}
\begin{figure}[H]
\centering
\includegraphics[width=0.8\textwidth]{images/task4e_bands_N50.png}
\caption{Kredibilitetsbånd for \(N=50\).}
\end{figure}
\begin{figure}[H]
\centering
\includegraphics[width=0.8\textwidth]{images/task4e_bands_N200.png}
\caption{Kredibilitetsbånd for \(N=200\).}
\end{figure}
\subsection{Kommentar}
Hovedpoenget i denne oppgaven er å se hvordan usikkerheten minker når utvalgsstørrelsen
øker. Små utvalg gir mer ustabile linjer og bredere intervaller, mens store utvalg gir mer
presise estimater og tydeligere mønstre.
\subsection{R-kode}
Listing~\ref{lst:task4-r} viser delen av skriptet som trekker delutvalg og lager figurene
for oppgave 4.
\begin{listing}[H]
\begin{minted}{r}
plot_many_sample_lines(dice_df, sample_size = 5, rounds = 50, file_name = "task4a_lines_N5.png")
plot_many_sample_lines(dice_df, sample_size = 15, rounds = 50, file_name = "task4b_lines_N15.png")
plot_many_sample_lines(dice_df, sample_size = 50, rounds = 50, file_name = "task4b_lines_N50.png")
plot_many_sample_lines(dice_df, sample_size = 200, rounds = 50, file_name = "task4b_lines_N200.png")
plot_many_b_intervals(dice_df, sample_size = 5, rounds = 50, level = 0.80, file_name = "task4c_b_intervals_N5.png")
plot_many_b_intervals(dice_df, sample_size = 15, rounds = 50, level = 0.80, file_name = "task4d_b_intervals_N15.png")
plot_many_b_intervals(dice_df, sample_size = 50, rounds = 50, level = 0.80, file_name = "task4d_b_intervals_N50.png")
plot_many_b_intervals(dice_df, sample_size = 200, rounds = 50, level = 0.80, file_name = "task4d_b_intervals_N200.png")
plot_many_credible_bands(dice_df, sample_size = 5, rounds = 50, level = 0.80, file_name = "task4e_bands_N5.png")
plot_many_credible_bands(dice_df, sample_size = 15, rounds = 50, level = 0.80, file_name = "task4e_bands_N15.png")
plot_many_credible_bands(dice_df, sample_size = 50, rounds = 50, level = 0.80, file_name = "task4e_bands_N50.png")
plot_many_credible_bands(dice_df, sample_size = 200, rounds = 50, level = 0.80, file_name = "task4e_bands_N200.png")
\end{minted}
\caption{R-kode for gjentatte delutvalg og intervallillustrasjoner}
\label{lst:task4-r}
\end{listing}