From 7356668689bc833163f05582389bf45b40ea0697 Mon Sep 17 00:00:00 2001 From: DerGrumpf Date: Fri, 17 Jan 2025 13:37:43 +0100 Subject: [PATCH] Added: 10. Data Analysis --- .obsidian/workspace.json | 42 +- ...sungen_Statistical_Test_Methods.slides.html | 7827 +++++++++++++++++ .../lernmaterial/10.Data_Analysis.ipynb | 367 + .../9.Lösungen_Statistical_Test_Methods.ipynb | 439 + .../9.Statistical_Test_Methods.ipynb | 198 +- 5 files changed, 8844 insertions(+), 29 deletions(-) create mode 100644 Material/wise_24_25/Folien/9.Lösungen_Statistical_Test_Methods.slides.html create mode 100644 Material/wise_24_25/lernmaterial/10.Data_Analysis.ipynb create mode 100644 Material/wise_24_25/lernmaterial/9.Lösungen_Statistical_Test_Methods.ipynb diff --git a/.obsidian/workspace.json b/.obsidian/workspace.json index 924118a..8efe097 100644 --- a/.obsidian/workspace.json +++ b/.obsidian/workspace.json @@ -21,6 +21,20 @@ "title": "10 10.01.2025" } }, + { + "id": "98a57ae4e157708f", + "type": "leaf", + "state": { + "type": "markdown", + "state": { + "file": "Evaluation WiSe 23 24.md", + "mode": "source", + "source": false + }, + "icon": "lucide-file", + "title": "Evaluation WiSe 23 24" + } + }, { "id": "cf11e9cb69c6effe", "type": "leaf", @@ -63,7 +77,8 @@ "title": "17 18.02.2025" } } - ] + ], + "currentTab": 1 } ], "direction": "vertical" @@ -226,21 +241,25 @@ "table-editor-obsidian:Advanced Tables Toolbar": false } }, - "active": "85d70f5e9df52245", + "active": "98a57ae4e157708f", "lastOpenFiles": [ + "Einführung.pdf", + "To Do.md", + "Timetable.pdf", + "Timetable.md", + "Student List.md", + "KC_Deutsch_HS_Anhrung.pdf", + "Evaluation WiSe 24 25.md", + "Evaluation WiSe 23 24.md", + "Janna Heiny Lösung 9..md", + "Lectures/10 10.01.2025.md", "Material/wise_24_25/gender_pay_gap.pdf", "Material/wise_24_25/gender_pay_gap.pptx", - "Timetable.md", - "Lectures/10 10.01.2025.md", "Material/wise_24_25/lernmaterial/bruttoverdiensterhebung_deutschland_april_22-23_nach_geschlecht copy.csv", "Material/wise_24_25/lernmaterial/bruttoverdiensterhebung_deutschland_april_22-23_nach_geschlecht.csv", "Material/wise_24_25/Folien/8.Folium_Lösungen.slides.html", "Material/wise_24_25/lernmaterial/8.Folium_Lösungen.ipynb", "Material/wise_24_25/8.Folium_Lösungen.ipynb", - "Material/wise_24_25/Untitled.ipynb", - "Material/wise_24_25/lernmaterial/62361-0030_de_flat.csv", - "Material/wise_24_25/lernmaterial/62361-0030_de_flat.zip", - "Material/env/bin/nbgrader", "Material/env/lib/python3.12/site-packages/nbgrader/server_extensions/formgrader/static/components/bootstrap/fonts/glyphicons-halflings-regular.svg", "Material/env/lib/python3.12/site-packages/nbgrader/docs/source/user_guide/submitted/hacker/ps1/jupyter.png", "Material/env/lib/python3.12/site-packages/nbgrader/docs/source/user_guide/submitted/bitdiddle/ps1/jupyter.png", @@ -263,16 +282,11 @@ "Material/env/lib/python3.12/site-packages/nbgrader/docs/source/changelog.md", "Lectures/06 22.11.2024.md", "Lectures/12 24.01.2025.md", - "Student List.md", "README.md", "Gruppen/MeWi 5.md", "Gruppen/MeWi 4.md", "Gruppen/MeWi 3.md", "Gruppen/MeWi 2.md", - "Gruppen/MeWi 1.md", - "Gruppen/Engineering 1.md", - "Gruppen/MeWi 6.md", - "Gruppen/MeWi 7 (DiKum).md", - "Material/env/lib/python3.12/site-packages/seaborn-0.13.2.dist-info/LICENSE.md" + "Gruppen/MeWi 1.md" ] } \ No newline at end of file diff --git a/Material/wise_24_25/Folien/9.Lösungen_Statistical_Test_Methods.slides.html b/Material/wise_24_25/Folien/9.Lösungen_Statistical_Test_Methods.slides.html new file mode 100644 index 0000000..f022fb3 --- /dev/null +++ b/Material/wise_24_25/Folien/9.Lösungen_Statistical_Test_Methods.slides.html @@ -0,0 +1,7827 @@ + + + + + + + +9.Lösungen_Statistical_Test_Methods slides + + + + + + + + + + + + + + + + + +
+
+
+
+
+
+
+
+
+
+
+
+
+
+ + + diff --git a/Material/wise_24_25/lernmaterial/10.Data_Analysis.ipynb b/Material/wise_24_25/lernmaterial/10.Data_Analysis.ipynb new file mode 100644 index 0000000..c6f07ed --- /dev/null +++ b/Material/wise_24_25/lernmaterial/10.Data_Analysis.ipynb @@ -0,0 +1,367 @@ +{ + "cells": [ + { + "cell_type": "markdown", + "id": "0362a1eb-1e46-462a-b22c-f972c398741d", + "metadata": { + "nbgrader": { + "grade": false, + "grade_id": "cell-e3006ef8308b2f34", + "locked": true, + "schema_version": 3, + "solution": false, + "task": false + } + }, + "source": [ + "# 10. Programmierübung: Datenanalyse\n", + "\n", + "
\n", + "
\n", + " Willkommen zur zehnten Programmierübung Einführung in Python 3.\n", + "
\n", + " \n", + "
\n", + "\n", + "Wenn Sie Fragen oder Verbesserungsvorschläge zum Inhalt oder Struktur der Notebooks haben, dann können sie eine E-Mail an Phil Keier ([p.keier@hbk-bs.de](mailto:p.keier@hbk-bs.de?subject=[SigSys]%20Feedback%20Programmierübung&)) oder Martin Le ([martin.le@tu-bs.de](mailto:martin.le@tu-bs.de?subject=[SigSys]%20Feedback%20Programmierübung&)) schreiben.\n", + "\n", + "Link zu einem Python Spickzettel: [hier](https://s3.amazonaws.com/assets.datacamp.com/blog_assets/PythonForDataScience.pdf)\n", + "\n", + "Der Großteil des Python-Tutorials stammt aus der Veranstaltung _Deep Learning Lab_ und von [www.python-kurs.eu](https://www.python-kurs.eu/python3_kurs.php) und wurde für _Signale und Systeme_, sowie _Einführung in die Programmierung für Nicht Informatiker_ angepasst.\n", + "\n", + "---" + ] + }, + { + "cell_type": "markdown", + "id": "0a97a824-bc2f-4f9d-a730-42ff05828cc8", + "metadata": { + "nbgrader": { + "grade": false, + "grade_id": "cell-a5071e148ad2227c", + "locked": true, + "schema_version": 3, + "solution": false, + "task": false + } + }, + "source": [ + "# Data Analysis\n", + "\n", + "In dieser & letzter Aufgabe ist dir das Datenset `survey.csv` gegeben. Diese Übung dient als Vorbereitung auf die abschließende Prüfung und wird dieshingehend auch streng bewertet. Jede Aufgabe setzt sich aus 6 Punkten zusammen von denen jeweils 4 auf den Schriftteil und 2 Punkte auf den Programmatischen Teil fallen. \n", + "\n", + "Gegeben ist immer eine Hypothese, beweise/widerlege die Hypothese und zeige auch die Gegenhypothese auf. Stelle zu jeder Aufgabe Annahmen an, Erkläre kurz dein Vorgehen, Interpretiere dein Ergebniss, Schließe mit einem angemessenen Fazit ab und erkläre jede von dir selbst erstellte Grafik. Gebe auch alle verwendeten Quellen die benutzt wurden an. \n", + "\n", + "Da zahlen nicht Aussagen gilt auch, dass sofern der Schriftteil nicht beantwortet wurde die Aufgabe mit 0 Punkten bewertet wird.\n", + "\n", + "Antworten sind in Englisch & Deutsch möglich andere Sprachen werden nicht akzeptiert.\n", + "\n", + "Die Daten stammen aus folgender Umfrage [Survey](https://forms.gle/JVKq6FrSUE8kN7Jq6).\n", + "\n", + "---" + ] + }, + { + "cell_type": "markdown", + "id": "ad9d17d9-dd59-4766-bb46-de4df822ce0f", + "metadata": { + "nbgrader": { + "grade": false, + "grade_id": "cell-3da446eb91bdd35d", + "locked": true, + "schema_version": 3, + "solution": false, + "task": false + } + }, + "source": [ + "# Hypothesis 1\n", + "\n", + "Der Kurs besteht überwiegend aus männlichen Individuum, welche überwiegend Windows verwenden und sich überpropotional als gute Programmierer einschätzen." + ] + }, + { + "cell_type": "code", + "execution_count": 4, + "id": "8e24289e-a738-4ae4-a6d4-a936263120fc", + "metadata": { + "nbgrader": { + "grade": true, + "grade_id": "cell-a6a23c7c132e44d9", + "locked": false, + "points": 2, + "schema_version": 3, + "solution": true, + "task": false + } + }, + "outputs": [], + "source": [ + "### BEGIN SOLUTION\n", + "### END SOLUTION" + ] + }, + { + "cell_type": "markdown", + "id": "80cf1c27-644a-4538-abbc-7d5f524251d7", + "metadata": { + "nbgrader": { + "grade": true, + "grade_id": "cell-9cbb6c488a06eb18", + "locked": false, + "points": 4, + "schema_version": 3, + "solution": true, + "task": false + } + }, + "source": [] + }, + { + "cell_type": "markdown", + "id": "171340b9-0302-4c7c-ac85-f81d1e57a9da", + "metadata": { + "nbgrader": { + "grade": false, + "grade_id": "cell-3fc34b3f943dfa4b", + "locked": true, + "schema_version": 3, + "solution": false, + "task": false + } + }, + "source": [ + "# Hypothesis 2\n", + "\n", + "Geisteswissenschaftliche Studierende neigen dazu das Betriebsystem Mac Os zu verwenden. Unteranderem wird auch angenommen, dass diese Gruppe überwiegend das Smartphone Betriebsystem Android verwendet. Daraus ableitend ist anzunehmen das diese Gruppe sich selbst als mittelmäßige Python Programmierer einschätzt." + ] + }, + { + "cell_type": "code", + "execution_count": 5, + "id": "98fb0abc-0d50-4f4c-aeb0-16b056aeeabf", + "metadata": { + "nbgrader": { + "grade": true, + "grade_id": "cell-b28aca63b8048f70", + "locked": false, + "points": 2, + "schema_version": 3, + "solution": true, + "task": false + } + }, + "outputs": [], + "source": [ + "### BEGIN SOLUTION\n", + "\n", + "### END SOLUTION" + ] + }, + { + "cell_type": "markdown", + "id": "7ae161df-8dd8-4828-99cc-3ba28d2bf9dd", + "metadata": { + "nbgrader": { + "grade": true, + "grade_id": "cell-016f2b30651bea18", + "locked": false, + "points": 4, + "schema_version": 3, + "solution": true, + "task": false + } + }, + "source": [] + }, + { + "cell_type": "markdown", + "id": "3b77bda1-5851-4394-81c7-fd649cb980e5", + "metadata": { + "nbgrader": { + "grade": false, + "grade_id": "cell-fae767f8aab85e92", + "locked": true, + "schema_version": 3, + "solution": false, + "task": false + } + }, + "source": [ + "# Hypothesis 3\n", + "\n", + "Studierende aus gut situierten Haushalten neigen dazu Gruppenarbeiten an der Uni als schlecht einzuschätzen. Insbesondere dann wenn Sie sich selbst als Gute Programmierer einschätzen." + ] + }, + { + "cell_type": "code", + "execution_count": 6, + "id": "0d74bd0d-e83e-4211-bc58-b9615e36b848", + "metadata": { + "nbgrader": { + "grade": true, + "grade_id": "cell-34a9cdeebcf2d7b9", + "locked": false, + "points": 2, + "schema_version": 3, + "solution": true, + "task": false + } + }, + "outputs": [], + "source": [ + "### BEGIN SOLUTION\n", + "### END SOLUTION" + ] + }, + { + "cell_type": "markdown", + "id": "b9bb8c23-e161-492c-b1ee-9cc4c21c2325", + "metadata": { + "nbgrader": { + "grade": true, + "grade_id": "cell-81264718d58ae0f6", + "locked": false, + "points": 4, + "schema_version": 3, + "solution": true, + "task": false + } + }, + "source": [] + }, + { + "cell_type": "markdown", + "id": "3fa617bb-77dd-4c43-b30b-b422eac770ef", + "metadata": { + "nbgrader": { + "grade": false, + "grade_id": "cell-d532947366781d90", + "locked": true, + "schema_version": 3, + "solution": false, + "task": false + } + }, + "source": [ + "# Hypothesis 4\n", + "\n", + "Personen die bereits strukturelle Benachteiligung erfahren haben sind meistens älter als der Durschnitt der Samplegruppe und in ärmlicheren Verhältnissen aufgewachsen. Ihr bevorzugtes Smartphone ist ein Samsung." + ] + }, + { + "cell_type": "code", + "execution_count": 7, + "id": "18467418-586b-4153-9066-0de730994e8e", + "metadata": { + "nbgrader": { + "grade": true, + "grade_id": "cell-5284bedc957436b3", + "locked": false, + "points": 2, + "schema_version": 3, + "solution": true, + "task": false + } + }, + "outputs": [], + "source": [ + "### BEGIN SOLUTION\n", + "### END SOLUTION" + ] + }, + { + "cell_type": "markdown", + "id": "3f5dace2-5a13-4806-946c-0d0e4c9bc307", + "metadata": { + "nbgrader": { + "grade": true, + "grade_id": "cell-90f0108fe83268c7", + "locked": false, + "points": 4, + "schema_version": 3, + "solution": true, + "task": false + } + }, + "source": [] + }, + { + "cell_type": "markdown", + "id": "c6fdcfa2-5507-4c85-b262-c83e6b1074ee", + "metadata": { + "nbgrader": { + "grade": false, + "grade_id": "cell-6ace0ffb9a32d3b1", + "locked": true, + "schema_version": 3, + "solution": false, + "task": false + } + }, + "source": [ + "## Hypothesis 5\n", + "\n", + "Jüngere Studierende betrachten die zurzeitige Politische Situation in Deutschland als schlecht. Unteranderem deshalb bewerten Sie Gruppenarbeiten als etwas gutes, da so ihr sozialer Zusammenhalt gestärkt wird" + ] + }, + { + "cell_type": "code", + "execution_count": 8, + "id": "5a76e273-a649-4bdf-ba8d-bc1351d0ec08", + "metadata": { + "nbgrader": { + "grade": true, + "grade_id": "cell-18c2e79244ca1beb", + "locked": false, + "points": 2, + "schema_version": 3, + "solution": true, + "task": false + } + }, + "outputs": [], + "source": [ + "### BEGIN SOLUTION\n", + "### END SOLUTION" + ] + }, + { + "cell_type": "markdown", + "id": "8bd2c8fa-801a-4c0a-8754-61bdc2f8127b", + "metadata": { + "nbgrader": { + "grade": true, + "grade_id": "cell-a421f0cc1a31c697", + "locked": false, + "points": 4, + "schema_version": 3, + "solution": true, + "task": false + } + }, + "source": [] + } + ], + "metadata": { + "kernelspec": { + "display_name": "Python 3 (ipykernel)", + "language": "python", + "name": "python3" + }, + "language_info": { + "codemirror_mode": { + "name": "ipython", + "version": 3 + }, + "file_extension": ".py", + "mimetype": "text/x-python", + "name": "python", + "nbconvert_exporter": "python", + "pygments_lexer": "ipython3", + "version": "3.12.8" + } + }, + "nbformat": 4, + "nbformat_minor": 5 +} diff --git a/Material/wise_24_25/lernmaterial/9.Lösungen_Statistical_Test_Methods.ipynb b/Material/wise_24_25/lernmaterial/9.Lösungen_Statistical_Test_Methods.ipynb new file mode 100644 index 0000000..2504f44 --- /dev/null +++ b/Material/wise_24_25/lernmaterial/9.Lösungen_Statistical_Test_Methods.ipynb @@ -0,0 +1,439 @@ +{ + "cells": [ + { + "cell_type": "markdown", + "id": "990b6558-1145-4024-8492-882b5d1358c1", + "metadata": { + "editable": true, + "slideshow": { + "slide_type": "slide" + }, + "tags": [] + }, + "source": [ + "# Lösungen Statistical Test Methods" + ] + }, + { + "cell_type": "code", + "execution_count": 3, + "id": "7fc345df-f487-44ed-a2d2-0162736cab85", + "metadata": { + "editable": true, + "slideshow": { + "slide_type": "skip" + }, + "tags": [] + }, + "outputs": [], + "source": [ + "import numpy as np\n", + "import matplotlib.pyplot as plt\n", + "from scipy import stats\n", + "import pandas as pd\n", + "import seaborn as sb" + ] + }, + { + "cell_type": "markdown", + "id": "7958f96d-3762-40dd-9573-59936a406433", + "metadata": { + "editable": true, + "slideshow": { + "slide_type": "slide" + }, + "tags": [] + }, + "source": [ + "## Umfrage für nächste Aufgabe\n", + "\n", + "https://forms.gle/JVKq6FrSUE8kN7Jq6" + ] + }, + { + "cell_type": "code", + "execution_count": 2, + "id": "dda1bf9e-6ab2-4794-832e-79cba819b9fa", + "metadata": { + "editable": true, + "slideshow": { + "slide_type": "fragment" + }, + "tags": [] + }, + "outputs": [ + { + "data": { + "image/jpeg": "", + "image/png": "iVBORw0KGgoAAAANSUhEUgAAAXIAAAFyAQAAAADAX2ykAAADSElEQVR4Ae2bUWrkMAyGpc1AHxOYA8xRnJste6TeIDnKHKAweSwkaJFkJ1OmKHbAYR70PYS0ERrPr1qW5RQJShj/lFgDgNvbuD42ro+N62Pj+ti4Pjbn6IORyzqYBbGHBQGm9KyXZ+eMJx8fj03UJxDzEFuOKjRE/7qGsOc7JrpxPW3eTZ80Y6cOIHwCcGwBYLrOGO6XmWCS3zVz/FrvNn4fj80v+vCsbWegoZ0hZuWNX+xN3N7mfH3aGWBE1KX3ZXDnj8fGx2OT9GmJaGDTcOfQMuMtrrpElNLzap9L8p+L29sc1IcnLGInvhuC8GgI/95lcV60gI4fe9B/Nu7fplQfra9SdcyztgOE8SYTdkGC52feb9ylVP/a9px8iSesjDzthfRHLrLinik+oKH2eNy/zTF9ZK8L0H5jLK14OSZO0tLVCLRW0sf85+P+bUr10fyM4dFxwfzBiVr2ugs/aGYab/OPFF7q3+1tausT8zNPWJCtkVw4P2tqljveCUse9/y8R+14HfMvsaRh+iCiO09iaW1wzHWTpBObOeY/H/dvU6pPmpcgdzPI1ogG2SStXWe5kxa111c7lOpf214XV4D264Lh80oAk5wvLEgjNtx/vs6gd0Lt8bh/m1J9UnynD0Kpn6Hlgqp9AATiIPcNoNx5fHMo1b+2/VpfSUOjkfpZt0bSldQLp2uvr7KoHa9S/ym+HMFYJvMirJd06svtSl9/syjVv7Z9jO/av5Kdkh4oxKpKmlg+fzOpHa+j/vXA9xuJ7ojY64ZI3s/hFZobW8pR/7m4f5uj+khA+TJ2kqlTQMcOAPvpkk76j/rPxf3blOqj+XkjdrKkoEqrrn6i739zKNX/HPv0juQFaOCtL19iVpb8LNWXfL1zxpOPj2cHmbo6OZ8mLLcm167Vduf9qz3e7e8txZfPf2UbFM8XeBHW7bA8SHnc+5M7vFt8U//qiYZwvHF91X7x+xv6TgdgkAT9buP38di86LO9Xxf4/St5MYsP+fXtu1f7HV787+D2NqX6pPwsy/DWxtjqZ8nUfv6bS6n+te1jfCOxDRkPCbXnkc4MBV9/d6gdr1L/cYXNxf+/e4dS/d3exvWxcX1sXB8b18emtj7/AVBt6JR2+GEnAAAAAElFTkSuQmCC", + "text/plain": [ + "" + ] + }, + "execution_count": 2, + "metadata": {}, + "output_type": "execute_result" + } + ], + "source": [ + "import qrcode\n", + "qrcode.make(\"https://forms.gle/JVKq6FrSUE8kN7Jq6\")" + ] + }, + { + "cell_type": "markdown", + "id": "b3645176-f2bc-42b9-b9f0-ed460adf55e6", + "metadata": { + "editable": true, + "slideshow": { + "slide_type": "slide" + }, + "tags": [] + }, + "source": [ + "### Aufgabe T-Test\n", + "\n", + "*6 Punkte - Programmieren*\n", + "\n", + "*6 Punkte - Schriftteil*\n", + "\n", + "Für diese Aufgabe ist extra ein Feld für den Schriftteil reserviert. **Erkläre** dort dein Vorgehen, die Nullhypothese, dein Ergebnis und wie der Nominallohn zu verstehen ist. **Interpretiere** dein Ergebnis und Stelle ein **Fazit** auf. Gebe auch alle verwendeten Quellen (samt link) korrekt an.\n", + "Jupyter unterstütz die Markdown Syntax ein Guide hierfür ist unter [The Ultimate Markdown Guide](https://medium.com/analytics-vidhya/the-ultimate-markdown-guide-for-jupyter-notebook-d5e5abf728fd) zu finden.\n", + "\n", + "**!!Wird der Schriftteil nicht oder nur unzureichend ausgefüllt führt dies zu einer Bewertung von 0 Punkten für die gesamte Aufgabe!!**" + ] + }, + { + "cell_type": "markdown", + "id": "0ab1d35e-f6a4-40e3-afca-4008077e0444", + "metadata": { + "editable": true, + "slideshow": { + "slide_type": "subslide" + }, + "tags": [] + }, + "source": [ + "Dem Notebook mit beigelegt ist das Datenset `nominallohn_deutschland_2023-2024_nach_geschlecht.csv` (Quelle: [DESTASIS Nominallohnindex: Deutschland, Monate, Geschlecht](https://www-genesis.destatis.de/datenbank/online/statistic/62361/table/62361-0003)).\n", + "\n", + "Analysiere das Datenset, gehen dabei von der Nullhypothese aus das es keinen Signifikanten Unterschied in den Nominallöhnen zwischen den Geschlechtern gibt.\n", + "\n", + "Gehe dabei wie folgt vor:\n", + "1. Stelle die Nullhypothese prüfbar auf.\n", + "2. Importiere das Datenset und filtere angemessen (Kommentare helfen mir später bei der Korrektur diesen Schritt nachzuvollziehen)\n", + "3. Berechne den von der Nullhypothese geforderten Populations Parameter $\\mu$.\n", + "4. Bestimme das Signifikanzlevel $\\alpha$ unter der $H_0$ verworfen wird.\n", + "5. Bestimme mittels t-test den p-wert zur Nullhypothese.\n", + "6. Stelle dein Ergebnis dar." + ] + }, + { + "cell_type": "markdown", + "id": "ca2cad52-220e-40f7-9ba8-8d8c9a800314", + "metadata": { + "editable": true, + "slideshow": { + "slide_type": "subslide" + }, + "tags": [] + }, + "source": [ + "## Nullhypothese\n", + "\n", + "$$H_0 = \\varnothing\\text{Nominallohn Männer} = \\varnothing\\text{Nominallohn Frauen}$$" + ] + }, + { + "cell_type": "code", + "execution_count": 4, + "id": "b013f02a-e4aa-4870-80c9-a9f61d1ae44a", + "metadata": { + "editable": true, + "slideshow": { + "slide_type": "fragment" + }, + "tags": [] + }, + "outputs": [], + "source": [ + "dataset: pd.DataFrame = pd.read_csv('nominallohn_deutschland_2023-2024_nach_geschlecht.csv', delimiter=',')\n", + "male = dataset.loc[dataset[\"Geschlecht\"] == \"männlich\"]\n", + "female = dataset.loc[dataset[\"Geschlecht\"] == \"weiblich\"]" + ] + }, + { + "cell_type": "code", + "execution_count": 5, + "id": "9b7a1f0f-fb91-4159-8692-32606feed847", + "metadata": { + "editable": true, + "slideshow": { + "slide_type": "fragment" + }, + "tags": [] + }, + "outputs": [], + "source": [ + "mu = male[\"Nominallohn\"].mean()\n", + "alpha = 0.05" + ] + }, + { + "cell_type": "code", + "execution_count": 6, + "id": "543c338d-53f7-410b-bfce-eb77832db104", + "metadata": { + "editable": true, + "slideshow": { + "slide_type": "subslide" + }, + "tags": [] + }, + "outputs": [ + { + "name": "stdout", + "output_type": "stream", + "text": [ + "\n", + " Fail to reject the null hypothesis;\n", + " there is no significant difference between the sample mean\n", + " and the hypothesized population mean.\n", + " \n", + "P-Value: 0.95\n" + ] + } + ], + "source": [ + "t_stat, p_value = stats.ttest_1samp(female[\"Nominallohn\"], mu)\n", + "\n", + "if p_value < alpha:\n", + " print('''\n", + " Reject the null hypothesis;\n", + " there is a significant difference between the sample mean\n", + " and the hypothesized population mean.\n", + " '''\n", + " )\n", + "else:\n", + " print('''\n", + " Fail to reject the null hypothesis;\n", + " there is no significant difference between the sample mean\n", + " and the hypothesized population mean.\n", + " '''\n", + " )\n", + "\n", + "print(f\"P-Value: {p_value:.2}\")" + ] + }, + { + "cell_type": "markdown", + "id": "b42d406d-e79c-494c-9b50-7660785b8a58", + "metadata": { + "editable": true, + "slideshow": { + "slide_type": "slide" + }, + "tags": [] + }, + "source": [ + "### Aufgabe\n", + "\n", + "*6 Punkte - Programmieren*\n", + "\n", + "*6 Punkte - Schriftteil*\n", + "\n", + "Für diese Aufgabe ist extra ein Feld für den Schriftteil reserviert. **Erkläre** dort dein Vorgehen, die Nullhypothese, dein Ergebnis und wie der Bruttoverdienst zu verstehen ist. **Interpretiere** dein Ergebnis und Stelle ein **Fazit** auf. Gebe auch alle verwendeten Quellen (samt link) korrekt an.\n", + "Jupyter unterstütz die Markdown Syntax ein Guide hierfür ist unter [The Ultimate Markdown Guide](https://medium.com/analytics-vidhya/the-ultimate-markdown-guide-for-jupyter-notebook-d5e5abf728fd) zu finden.\n", + "\n", + "**!!Wird der Schriftteil nicht oder nur unzureichend ausgefüllt führt dies zu einer Bewertung von 0 Punkten für die gesamte Aufgabe!!**" + ] + }, + { + "cell_type": "markdown", + "id": "94f5f238-281b-4884-bf18-ffbac035f621", + "metadata": { + "editable": true, + "slideshow": { + "slide_type": "subslide" + }, + "tags": [] + }, + "source": [ + "Analysiere das Datenset `bruttoverdiensterhebung_deutschland_april_22-23_nach_geschlecht.csv` (Quelle: [Destatis]( https://www-genesis.destatis.de/datenbank/online/statistic/62361/table/62361-0030))\n", + "\n", + "Gehe dabei von der Hypothese aus das einen keinen Bruttoeinkommensunterschied der Geschlechter in Deutschland für den Zeitraum 2022-2023 gibt.\n", + "\n", + "Gehe dabei wie folgt vor:\n", + "1. Lies das Datenset ein und schaue dir die vorhandenen Werte an. Achte auf `Nan` Werte.\n", + "2. Filter aus der Spalte \"Geschlecht\" die benötigten Werte.\n", + "3. Führe einen Korrelationstest zwischen den Geschlechtern & dem Bruttoverdienst durch.\n", + "4. Berechne den Bruttoeinkommensunterschied.\n", + "5. Finde eine geeignete Darstellung für dein Ergebnis." + ] + }, + { + "cell_type": "markdown", + "id": "9d28b23e-868b-4dce-9efe-d9a509673812", + "metadata": { + "editable": true, + "slideshow": { + "slide_type": "subslide" + }, + "tags": [] + }, + "source": [ + "## Nullhypothese\n", + "\n", + "$$H_0 = \\varnothing\\text{Bruttoeinkommen Männer} - \\varnothing\\text{Bruttoeinkommen Frauen} = 0$$" + ] + }, + { + "cell_type": "code", + "execution_count": 15, + "id": "2bb73d80-edc5-4256-b52e-2095f52395e8", + "metadata": { + "editable": true, + "slideshow": { + "slide_type": "fragment" + }, + "tags": [] + }, + "outputs": [], + "source": [ + "df: pd.DataFrame = pd.read_csv('bruttoverdiensterhebung_deutschland_april_22-23_nach_geschlecht.csv')\n", + "df_cleaned: pd.DataFrame = df.dropna()\n", + "df_cleaned = df_cleaned.drop(\n", + " df_cleaned[df_cleaned['Geschlecht'] == 'Insgesamt'].index\n", + ")" + ] + }, + { + "cell_type": "code", + "execution_count": 16, + "id": "478dbd4a-91cb-4ebc-9baa-a554b65aa3ca", + "metadata": { + "editable": true, + "slideshow": { + "slide_type": "fragment" + }, + "tags": [] + }, + "outputs": [], + "source": [ + "# Pearson test\n", + "f = lambda x: 1 if x=='männlich' else 0\n", + "df_cleaned[\"Geschlecht numerisch\"] = df_cleaned[\"Geschlecht\"].apply(f)\n", + "pearsoncorr = df_cleaned.corr(method='pearson', numeric_only=True)" + ] + }, + { + "cell_type": "code", + "execution_count": 18, + "id": "9377f08f-d9c7-4c03-97e7-8fdd8c3b8e56", + "metadata": { + "editable": true, + "slideshow": { + "slide_type": "subslide" + }, + "tags": [] + }, + "outputs": [ + { + "data": { + "image/png": "", + "text/plain": [ + "
" + ] + }, + "metadata": {}, + "output_type": "display_data" + } + ], + "source": [ + "sb.heatmap(pearsoncorr, \n", + " xticklabels=pearsoncorr.columns,\n", + " yticklabels=pearsoncorr.columns,\n", + " cmap='RdBu_r',\n", + " annot=True,\n", + " linewidth=0.5)\n", + "plt.show()" + ] + }, + { + "cell_type": "code", + "execution_count": 19, + "id": "e3bd5f36-390d-4be9-a009-b0ce555e497f", + "metadata": { + "editable": true, + "slideshow": { + "slide_type": "subslide" + }, + "tags": [] + }, + "outputs": [], + "source": [ + "df_women = df_cleaned[df_cleaned['Geschlecht'] == 'weiblich']\n", + "df_men = df_cleaned[df_cleaned['Geschlecht'] == 'männlich']" + ] + }, + { + "cell_type": "code", + "execution_count": 24, + "id": "f2d19be6-d402-48fe-b7cd-1518bb591200", + "metadata": { + "editable": true, + "slideshow": { + "slide_type": "fragment" + }, + "tags": [] + }, + "outputs": [ + { + "name": "stdout", + "output_type": "stream", + "text": [ + "Differenz Bruttoeinkommen 313.25€\n" + ] + } + ], + "source": [ + "diff = abs(df_men['Verdienst'].mean() - df_women['Verdienst'].mean())\n", + "print(f\"Differenz Bruttoeinkommen {diff:.2f}€\")" + ] + }, + { + "cell_type": "code", + "execution_count": null, + "id": "26415fd9-7150-4844-8187-fd382d14db3e", + "metadata": { + "editable": true, + "slideshow": { + "slide_type": "skip" + }, + "tags": [] + }, + "outputs": [], + "source": [] + } + ], + "metadata": { + "kernelspec": { + "display_name": "Python 3 (ipykernel)", + "language": "python", + "name": "python3" + }, + "language_info": { + "codemirror_mode": { + "name": "ipython", + "version": 3 + }, + "file_extension": ".py", + "mimetype": "text/x-python", + "name": "python", + "nbconvert_exporter": "python", + "pygments_lexer": "ipython3", + "version": "3.12.8" + } + }, + "nbformat": 4, + "nbformat_minor": 5 +} diff --git a/Material/wise_24_25/lernmaterial/9.Statistical_Test_Methods.ipynb b/Material/wise_24_25/lernmaterial/9.Statistical_Test_Methods.ipynb index 935bf1c..68e4ae7 100644 --- a/Material/wise_24_25/lernmaterial/9.Statistical_Test_Methods.ipynb +++ b/Material/wise_24_25/lernmaterial/9.Statistical_Test_Methods.ipynb @@ -39,10 +39,18 @@ }, { "cell_type": "code", - "execution_count": 29, + "execution_count": 1, "id": "483f1609-fd3a-4154-a059-7e5d26562bcb", "metadata": { "editable": true, + "nbgrader": { + "grade": false, + "grade_id": "cell-2885f7f5d6e48f91", + "locked": true, + "schema_version": 3, + "solution": false, + "task": false + }, "slideshow": { "slide_type": "" }, @@ -78,7 +86,7 @@ }, { "cell_type": "code", - "execution_count": 30, + "execution_count": 2, "id": "76813bd6-6efe-439f-b48c-30da670b84ab", "metadata": { "editable": true, @@ -424,7 +432,7 @@ }, { "cell_type": "code", - "execution_count": 32, + "execution_count": 6, "id": "10d3b6f1-2c8d-4999-9f02-30496db96297", "metadata": { "editable": true, @@ -607,10 +615,18 @@ }, { "cell_type": "code", - "execution_count": 38, + "execution_count": 7, "id": "4f7c2990-3f68-47e3-93e9-f4c919f1d93c", "metadata": { "editable": true, + "nbgrader": { + "grade": false, + "grade_id": "cell-5294192c404de210", + "locked": true, + "schema_version": 3, + "solution": false, + "task": false + }, "slideshow": { "slide_type": "" }, @@ -663,7 +679,7 @@ "Nominallohn 0.172602 1.000000" ] }, - "execution_count": 38, + "execution_count": 7, "metadata": {}, "output_type": "execute_result" } @@ -679,6 +695,14 @@ "id": "d012e5ff-7e5f-4bb6-9d2d-9993dd4b1947", "metadata": { "editable": true, + "nbgrader": { + "grade": false, + "grade_id": "cell-9cbe48bc8062ccae", + "locked": true, + "schema_version": 3, + "solution": false, + "task": false + }, "slideshow": { "slide_type": "" }, @@ -690,10 +714,18 @@ }, { "cell_type": "code", - "execution_count": 40, + "execution_count": 8, "id": "84ad50bb-b8d9-4f69-a2ae-905395a7456a", "metadata": { "editable": true, + "nbgrader": { + "grade": false, + "grade_id": "cell-69937404c2eb9a0e", + "locked": true, + "schema_version": 3, + "solution": false, + "task": false + }, "slideshow": { "slide_type": "" }, @@ -726,6 +758,14 @@ "id": "22e6a3f3-b402-4364-a418-70a6e4001d32", "metadata": { "editable": true, + "nbgrader": { + "grade": false, + "grade_id": "cell-d81e230add7ed3f2", + "locked": true, + "schema_version": 3, + "solution": false, + "task": false + }, "slideshow": { "slide_type": "" }, @@ -740,6 +780,14 @@ "id": "b60b2a4d-611d-4da4-9309-9150d500878e", "metadata": { "editable": true, + "nbgrader": { + "grade": false, + "grade_id": "cell-94a5452d5be14bae", + "locked": true, + "schema_version": 3, + "solution": false, + "task": false + }, "slideshow": { "slide_type": "" }, @@ -785,10 +833,18 @@ }, { "cell_type": "code", - "execution_count": 42, + "execution_count": 9, "id": "e4b77f20-493d-4424-a3c2-a7fa140a78e2", "metadata": { "editable": true, + "nbgrader": { + "grade": false, + "grade_id": "cell-b8c069ec23d35f28", + "locked": true, + "schema_version": 3, + "solution": false, + "task": false + }, "slideshow": { "slide_type": "" }, @@ -841,7 +897,7 @@ "Doktor 2 0.466667 1.000000" ] }, - "execution_count": 42, + "execution_count": 9, "metadata": {}, "output_type": "execute_result" } @@ -860,6 +916,14 @@ "id": "d2ff93fc-dedb-4dd1-8969-db9fcdc63c66", "metadata": { "editable": true, + "nbgrader": { + "grade": false, + "grade_id": "cell-732bc023d7ac4739", + "locked": true, + "schema_version": 3, + "solution": false, + "task": false + }, "slideshow": { "slide_type": "" }, @@ -874,6 +938,14 @@ "id": "0cedcad4-0834-43cb-a253-b9d009018a6c", "metadata": { "editable": true, + "nbgrader": { + "grade": false, + "grade_id": "cell-818c093a4e3ba72e", + "locked": true, + "schema_version": 3, + "solution": false, + "task": false + }, "slideshow": { "slide_type": "" }, @@ -890,10 +962,18 @@ }, { "cell_type": "code", - "execution_count": 50, + "execution_count": 10, "id": "2bb83c7d-f3af-42c9-ae93-3655868d12e9", "metadata": { "editable": true, + "nbgrader": { + "grade": false, + "grade_id": "cell-ec1bbf166d417dc7", + "locked": true, + "schema_version": 3, + "solution": false, + "task": false + }, "slideshow": { "slide_type": "" }, @@ -994,7 +1074,7 @@ "9 15 20" ] }, - "execution_count": 50, + "execution_count": 10, "metadata": {}, "output_type": "execute_result" } @@ -1010,10 +1090,18 @@ }, { "cell_type": "code", - "execution_count": 51, + "execution_count": 11, "id": "5c223094-8d54-4cd8-a3cc-4cb56595ca78", "metadata": { "editable": true, + "nbgrader": { + "grade": false, + "grade_id": "cell-9a98a7086c0bd404", + "locked": true, + "schema_version": 3, + "solution": false, + "task": false + }, "slideshow": { "slide_type": "" }, @@ -1066,7 +1154,7 @@ "Reaktionsgeschwindigkeit 0.509356 1.000000" ] }, - "execution_count": 51, + "execution_count": 11, "metadata": {}, "output_type": "execute_result" } @@ -1081,6 +1169,14 @@ "id": "c52137a3-20dc-46d3-9e30-6b0d49a62964", "metadata": { "editable": true, + "nbgrader": { + "grade": false, + "grade_id": "cell-008a676a06ecdd3e", + "locked": true, + "schema_version": 3, + "solution": false, + "task": false + }, "slideshow": { "slide_type": "" }, @@ -1095,6 +1191,14 @@ "id": "53345351-2494-4142-b550-a047fd7a7849", "metadata": { "editable": true, + "nbgrader": { + "grade": false, + "grade_id": "cell-be05fea16294ca00", + "locked": true, + "schema_version": 3, + "solution": false, + "task": false + }, "slideshow": { "slide_type": "" }, @@ -1123,6 +1227,14 @@ "id": "4e82abfb-41d9-4133-9e08-29494b8dab50", "metadata": { "editable": true, + "nbgrader": { + "grade": false, + "grade_id": "cell-5fcf92745c0c6744", + "locked": true, + "schema_version": 3, + "solution": false, + "task": false + }, "slideshow": { "slide_type": "" }, @@ -1131,10 +1243,66 @@ "source": [ "### Aufgabe\n", "\n", - "Führe einen Pearson Test durch. Forme dabei das Datenset so um das die geschlechter ihren eigenen Spalten haben.\n", + "*6 Punkte - Programmieren*\n", "\n", - "Quelle: https://www-genesis.destatis.de/datenbank/online/statistic/62361/table/62361-0030\n", - "bruttoverdiensterhebung_deutschland_april_22-23_nach_geschlecht.csv" + "*6 Punkte - Schriftteil*\n", + "\n", + "Für diese Aufgabe ist extra ein Feld für den Schriftteil reserviert. **Erkläre** dort dein Vorgehen, die Nullhypothese, dein Ergebnis und wie der Bruttoverdienst zu verstehen ist. **Interpretiere** dein Ergebnis und Stelle ein **Fazit** auf. Gebe auch alle verwendeten Quellen (samt link) korrekt an.\n", + "Jupyter unterstütz die Markdown Syntax ein Guide hierfür ist unter [The Ultimate Markdown Guide](https://medium.com/analytics-vidhya/the-ultimate-markdown-guide-for-jupyter-notebook-d5e5abf728fd) zu finden.\n", + "\n", + "**!!Wird der Schriftteil nicht oder nur unzureichend ausgefüllt führt dies zu einer Bewertung von 0 Punkten für die gesamte Aufgabe!!**\n", + "\n", + "Analysiere das Datenset `bruttoverdiensterhebung_deutschland_april_22-23_nach_geschlecht.csv` (Quelle: [Destatis]( https://www-genesis.destatis.de/datenbank/online/statistic/62361/table/62361-0030))\n", + "\n", + "Gehe dabei von der Hypothese aus das einen keinen Bruttoeinkommensunterschied der Geschlechter in Deutschland für den Zeitraum 2022-2023 gibt.\n", + "\n", + "Gehe dabei wie folgt vor:\n", + "1. Lies das Datenset ein und schaue dir die vorhandenen Werte an. Achte auf `Nan` Werte.\n", + "2. Filter aus der Spalte \"Geschlecht\" die benötigten Werte.\n", + "3. Führe einen Korrelationstest zwischen den Geschlechtern & dem Bruttoverdienst durch.\n", + "4. Berechne den Bruttoeinkommensunterschied.\n", + "5. Finde eine geeignete Darstellung für dein Ergebnis." + ] + }, + { + "cell_type": "code", + "execution_count": 20, + "id": "8bc69bfc-96aa-4fdf-b540-a956ff4c1baf", + "metadata": { + "nbgrader": { + "grade": true, + "grade_id": "cell-78d2ec73dc266600", + "locked": false, + "points": 6, + "schema_version": 3, + "solution": true, + "task": false + } + }, + "outputs": [], + "source": [ + "# BEGIN SOLUTION\n", + "dataset: pd.DataFrame = pd.read_csv('bruttoverdiensterhebung_deutschland_april_22-23_nach_geschlecht.csv')\n", + "# END SOLUTION" + ] + }, + { + "cell_type": "markdown", + "id": "d6871b8f-5eda-4cad-a482-7c0bb88dff0d", + "metadata": { + "nbgrader": { + "grade": true, + "grade_id": "cell-8fb2067332715dfa", + "locked": false, + "points": 6, + "schema_version": 3, + "solution": true, + "task": false + } + }, + "source": [ + "# BEGIN SOLUTION\n", + "# END SOLUTION" ] } ],