\section{Oppgave 4: Utvalgsforsøk} \subsection{Tema} I denne delen undersøker vi hvordan regresjonslinjen og intervallestimatene endrer seg når vi bare bruker tilfeldige delutvalg av observasjonene. \subsection{a) 50 runder med \(N = 5\)} Vi trekker 50 tilfeldige utvalg med \(N = 5\), finner regresjonslinjen for hvert utvalg, og tegner alle linjene i samme figur. \begin{figure}[H] \centering \includegraphics[width=0.8\textwidth]{images/task4a_lines_N5.png} \caption{50 regresjonslinjer basert på utvalg med \(N=5\).} \end{figure} Det vi forventer å se, er stor variasjon fra linje til linje fordi utvalgene er små. \subsection{b) 50 runder med \(N = 15, 50, 200\)} Vi gjentar samme prosedyre for større utvalg. Når \(N\) øker, bør linjene samle seg mer rundt regresjonslinjen for hele datasettet. \begin{figure}[H] \centering \includegraphics[width=0.8\textwidth]{images/task4b_lines_N15.png} \caption{Regresjonslinjer for \(N=15\).} \end{figure} \begin{figure}[H] \centering \includegraphics[width=0.8\textwidth]{images/task4b_lines_N50.png} \caption{Regresjonslinjer for \(N=50\).} \end{figure} \begin{figure}[H] \centering \includegraphics[width=0.8\textwidth]{images/task4b_lines_N200.png} \caption{Regresjonslinjer for \(N=200\).} \end{figure} \subsection{c) Oppgave 3c gjentatt 50 ganger med \(N = 5\)} Her beregner vi 80\%-intervallestimatet for stigningstallet \(b\) i 50 runder med \(N=5\), og tegner intervallene samlet i én figur. \begin{figure}[H] \centering \includegraphics[width=0.8\textwidth]{images/task4c_b_intervals_N5.png} \caption{50 intervallestimater for \(b\) når \(N=5\).} \end{figure} Små utvalg vil typisk gi brede intervaller og stor variasjon mellom rundene. \subsection{d) Samme analyse for \(N = 15, 50, 200\)} Når vi øker \(N\), blir intervallene vanligvis smalere, og estimatene for \(b\) blir mer stabile. \begin{figure}[H] \centering \includegraphics[width=0.8\textwidth]{images/task4d_b_intervals_N15.png} \caption{Intervallestimater for \(b\) når \(N=15\).} \end{figure} \begin{figure}[H] \centering \includegraphics[width=0.8\textwidth]{images/task4d_b_intervals_N50.png} \caption{Intervallestimater for \(b\) når \(N=50\).} \end{figure} \begin{figure}[H] \centering \includegraphics[width=0.8\textwidth]{images/task4d_b_intervals_N200.png} \caption{Intervallestimater for \(b\) når \(N=200\).} \end{figure} \subsection{e) Illustrasjoner som i oppgave 3f} Til slutt lager vi figurer med regresjonslinje og tilhørende 80\%-kredibilitetsbånd for utvalg med \(N = 5, 15, 50\) og \(200\). \begin{figure}[H] \centering \includegraphics[width=0.8\textwidth]{images/task4e_bands_N5.png} \caption{Kredibilitetsbånd for \(N=5\).} \end{figure} \begin{figure}[H] \centering \includegraphics[width=0.8\textwidth]{images/task4e_bands_N15.png} \caption{Kredibilitetsbånd for \(N=15\).} \end{figure} \begin{figure}[H] \centering \includegraphics[width=0.8\textwidth]{images/task4e_bands_N50.png} \caption{Kredibilitetsbånd for \(N=50\).} \end{figure} \begin{figure}[H] \centering \includegraphics[width=0.8\textwidth]{images/task4e_bands_N200.png} \caption{Kredibilitetsbånd for \(N=200\).} \end{figure} \subsection{Kommentar} Hovedpoenget i denne oppgaven er å se hvordan usikkerheten minker når utvalgsstørrelsen øker. Små utvalg gir mer ustabile linjer og bredere intervaller, mens store utvalg gir mer presise estimater og tydeligere mønstre. \subsection{R-kode} Listing~\ref{lst:task4-r} viser delen av skriptet som trekker delutvalg og lager figurene for oppgave 4. \begin{listing}[H] \begin{minted}{r} plot_many_sample_lines(dice_df, sample_size = 5, rounds = 50, file_name = "task4a_lines_N5.png") plot_many_sample_lines(dice_df, sample_size = 15, rounds = 50, file_name = "task4b_lines_N15.png") plot_many_sample_lines(dice_df, sample_size = 50, rounds = 50, file_name = "task4b_lines_N50.png") plot_many_sample_lines(dice_df, sample_size = 200, rounds = 50, file_name = "task4b_lines_N200.png") plot_many_b_intervals(dice_df, sample_size = 5, rounds = 50, level = 0.80, file_name = "task4c_b_intervals_N5.png") plot_many_b_intervals(dice_df, sample_size = 15, rounds = 50, level = 0.80, file_name = "task4d_b_intervals_N15.png") plot_many_b_intervals(dice_df, sample_size = 50, rounds = 50, level = 0.80, file_name = "task4d_b_intervals_N50.png") plot_many_b_intervals(dice_df, sample_size = 200, rounds = 50, level = 0.80, file_name = "task4d_b_intervals_N200.png") plot_many_credible_bands(dice_df, sample_size = 5, rounds = 50, level = 0.80, file_name = "task4e_bands_N5.png") plot_many_credible_bands(dice_df, sample_size = 15, rounds = 50, level = 0.80, file_name = "task4e_bands_N15.png") plot_many_credible_bands(dice_df, sample_size = 50, rounds = 50, level = 0.80, file_name = "task4e_bands_N50.png") plot_many_credible_bands(dice_df, sample_size = 200, rounds = 50, level = 0.80, file_name = "task4e_bands_N200.png") \end{minted} \caption{R-kode for gjentatte delutvalg og intervallillustrasjoner} \label{lst:task4-r} \end{listing}