import pandas as pd
import numpy as np
import os

import warnings
warnings.simplefilter('ignore')

from IPython.display import display, IFrame

def show_paradox_slides():
    src = 'https://docs.google.com/presentation/d/e/2PACX-1vSbFSaxaYZ0NcgrgqZLvjhkjX-5MQzAITWAsEFZHnix3j1c0qN8Vd1rogTAQP7F7Nf5r-JWExnGey7h/embed?start=false'
    width = 960
    height = 569
    display(IFrame(src, width, height))


import seaborn as sns
penguins = sns.load_dataset('penguins').dropna()
penguins.head()


penguins['species'].value_counts()

Adelie       146
Gentoo       119
Chinstrap     68
Name: species, dtype: int64


penguins.sort_values('body_mass_g', ascending=False).groupby('species').first()


species_and_island = penguins.groupby(['species', 'island']).mean()
species_and_island


species_and_island


species_and_island['body_mass_g']

species    island   
Adelie     Biscoe       3709.659091
           Dream        3701.363636
           Torgersen    3708.510638
Chinstrap  Dream        3733.088235
Gentoo     Biscoe       5092.436975
Name: body_mass_g, dtype: float64


species_and_island.loc['Adelie']


species_and_island.loc[('Adelie', 'Torgersen')]

bill_length_mm         39.038298
bill_depth_mm          18.451064
flipper_length_mm     191.531915
body_mass_g          3708.510638
Name: (Adelie, Torgersen), dtype: float64


species_and_island.reset_index()


penguins.groupby(['species', 'island'], as_index=False).mean()


penguins.groupby(['species', 'island'])['body_mass_g'].mean()

species    island   
Adelie     Biscoe       3709.659091
           Dream        3701.363636
           Torgersen    3708.510638
Chinstrap  Dream        3733.088235
Gentoo     Biscoe       5092.436975
Name: body_mass_g, dtype: float64


penguins.pivot_table(index='species', 
                     columns='island', 
                     values='body_mass_g', 
                     aggfunc='mean')


%reload_ext pandas_tutor


%%pt

penguins.pivot_table(index='species', 
                     columns='island', 
                     values='body_mass_g', 
                     aggfunc='mean')


penguins.pivot_table(index='island', 
                     columns='species', 
                     values='bill_length_mm', 
                     aggfunc='count')


penguins.pivot_table(index='island', 
                     columns='species', 
                     values='bill_length_mm', 
                     aggfunc='count', 
                     fill_value=0)


penguins.pivot_table(index='species', columns='sex', values='body_mass_g', aggfunc='median')


counts = penguins.pivot_table(index='species', 
                              columns='sex', 
                              values='body_mass_g', 
                              aggfunc='count', 
                              fill_value=0)
counts


joint = counts / counts.sum().sum()
joint


joint


# Recall, joint.sum(axis=0) sums across the rows, which computes the sum of the **columns**.
joint.sum(axis=0)

sex
Female    0.495495
Male      0.504505
dtype: float64


joint.sum(axis=1)

species
Adelie       0.438438
Chinstrap    0.204204
Gentoo       0.357357
dtype: float64


counts


counts


counts.sum(axis=0)

sex
Female    165
Male      168
dtype: int64


counts / counts.sum(axis=0)


moves = pd.DataFrame([
    [1, 1, 'O'],
    [2, 1, 'X'],
    [2, 2, 'X'],
    [2, 3, 'O'],
    [3, 1, 'O'],
    [3, 3, 'X']
], columns=['i', 'j', 'move'])
moves


moves.pivot(index='i', columns='j', values='move').fillna('')


(
    penguins.groupby(['species', 'sex'])[['body_mass_g']]
            .mean()
            .reset_index()
            .pivot(index='species', columns='sex', values='body_mass_g')
)


penguins.pivot_table(index='species', columns='sex', values='body_mass_g', aggfunc='mean')


lisa = pd.DataFrame([
        [20, 46],
        [18, 54],
        [5, 20]
    ],
    columns=['Units', 'Grade Points Earned'], 
    index=['Fall', 'Winter', 'Spring'])

bart = pd.DataFrame([
        [5, 10],
        [5, 13.5],
        [22, 81.4]
    ],
    columns=['Units', 'Grade Points Earned'], 
    index=['Fall', 'Winter', 'Spring'])


lisa


bart


quarterly_gpas = pd.DataFrame(
    {
        "Lisa's Quarter GPA": lisa['Grade Points Earned'] / lisa['Units'],
        "Bart's Quarter GPA": bart['Grade Points Earned'] / bart['Units']
    }
)

quarterly_gpas


tot = lisa.sum()
tot['Grade Points Earned'] / tot['Units']

2.7906976744186047


tot = bart.sum()
tot['Grade Points Earned'] / tot['Units']

3.278125


quarterly_gpas.assign(Lisa_units=lisa['Units']) \
              .assign(Bart_units=bart['Units']) \
              .iloc[:, [0, 2, 1, 3]]


show_paradox_slides()


ratings_path = os.path.join('data', 'ratings.csv')
ratings = pd.read_csv(ratings_path)
ratings.sample(5).head()


ratings['phone'].value_counts(normalize=True)

iPhone     0.651452
Android    0.348548
Name: phone, dtype: float64


ratings.pivot_table(index='phone', columns='restaurant', values='rating', aggfunc='mean')


ratings.groupby('restaurant').mean()


import datetime


datetime.datetime.now()

datetime.datetime(2023, 1, 20, 0, 1, 8, 395180)


datetime.datetime.now() + datetime.timedelta(days=3, hours=5)

datetime.datetime(2023, 1, 23, 5, 1, 8, 398462)


datetime.datetime.now().timestamp()

1674201668.402011


pd.Timestamp(year=1998, month=11, day=26)

Timestamp('1998-11-26 00:00:00')


final_start = pd.to_datetime('March 22nd, 2023, 11:30AM')
final_start

Timestamp('2023-03-22 11:30:00')


final_finish = pd.to_datetime('March 22nd, 2023, 2:30PM')
final_finish

Timestamp('2023-03-22 14:30:00')


# 0 is Monday, 1 is Tuesday, etc.
final_finish.dayofweek

2


final_finish.year

2023


final_finish - final_start

Timedelta('0 days 03:00:00')


exam_times_path = os.path.join('data', 'exam-times.csv')
exam_times = pd.read_csv(exam_times_path)
exam_times


# Step 1: Convert the time columns to timestamps, using pd.to_datetime.
exam_times['start_exam'] = pd.to_datetime(exam_times['start_exam'])
exam_times['finish_exam'] = pd.to_datetime(exam_times['finish_exam'])
exam_times


# Note that datetime64[ns] is the data type pandas uses to store timestamps in a Series/DataFrame.
exam_times.dtypes

name                   object
start_exam     datetime64[ns]
finish_exam    datetime64[ns]
section                object
dtype: object


# Step 2: Find the difference between the two time columns.
exam_times['difference'] = exam_times['finish_exam'] - exam_times['start_exam']
exam_times


exam_times.dtypes

name                    object
start_exam      datetime64[ns]
finish_exam     datetime64[ns]
section                 object
difference     timedelta64[ns]
dtype: object


# Step 3: Sort by the difference in descending order and take the first row.
exam_times.sort_values('difference', ascending=False)['name'].iloc[0]

'Billy'

species	Adelie	Chinstrap	Gentoo
island
Biscoe	44.0	NaN	119.0
Dream	55.0	68.0	NaN
Torgersen	47.0	NaN	NaN

Phone Type	Stars for Dirty Birds	Stars for The Loft
Android	4.24	4.0
iPhone	2.99	2.79
All	3.32	3.37

	phone	restaurant	rating
546	Android	Dirty Birds	4
1039	Android	The Loft	4
1757	iPhone	Dirty Birds	2
2094	iPhone	Dirty Birds	2
2903	iPhone	Dirty Birds	3

restaurant	Dirty Birds	The Loft
phone
Android	4.235669	4.000000
iPhone	2.987957	2.787971

	rating
restaurant
Dirty Birds	3.320652
The Loft	3.366205

	species	island	bill_length_mm	bill_depth_mm	flipper_length_mm	body_mass_g	sex
0	Adelie	Torgersen	39.1	18.7	181.0	3750.0	Male
1	Adelie	Torgersen	39.5	17.4	186.0	3800.0	Female
2	Adelie	Torgersen	40.3	18.0	195.0	3250.0	Female
4	Adelie	Torgersen	36.7	19.3	193.0	3450.0	Female
5	Adelie	Torgersen	39.3	20.6	190.0	3650.0	Male

	bill_length_mm	bill_depth_mm	flipper_length_mm	body_mass_g
island
Biscoe	38.975000	18.370455	188.795455	3709.659091
Dream	38.520000	18.240000	189.927273	3701.363636
Torgersen	39.038298	18.451064	191.531915	3708.510638

sex	Female	Male
species
Adelie	3400.0	4000.0
Chinstrap	3550.0	3950.0
Gentoo	4700.0	5500.0

sex	Female	Male
species
Adelie	0.219219	0.219219
Chinstrap	0.102102	0.102102
Gentoo	0.174174	0.183183

sex	Female	Male
species
Adelie	0.442424	0.434524
Chinstrap	0.206061	0.202381
Gentoo	0.351515	0.363095

sex	Female	Male
species
Adelie	3368.835616	4043.493151
Chinstrap	3527.205882	3938.970588
Gentoo	4679.741379	5484.836066

	name	start_exam	finish_exam	section
0	Annie	15:00	16:00	A
1	Billy	15:02	17:58	A
2	Sally	15:01	17:05	A
3	Tommy	15:00	16:55	A
4	Junior	18:00	20:00	B
5	Rex	18:06	20:50	B
6	Flash	19:07	20:59	B

	name	start_exam	finish_exam	section
0	Annie	2023-01-20 15:00:00	2023-01-20 16:00:00	A
1	Billy	2023-01-20 15:02:00	2023-01-20 17:58:00	A
2	Sally	2023-01-20 15:01:00	2023-01-20 17:05:00	A
3	Tommy	2023-01-20 15:00:00	2023-01-20 16:55:00	A
4	Junior	2023-01-20 18:00:00	2023-01-20 20:00:00	B
5	Rex	2023-01-20 18:06:00	2023-01-20 20:50:00	B
6	Flash	2023-01-20 19:07:00	2023-01-20 20:59:00	B

	i	j	move
0	1	1	O
1	2	1	X
2	2	2	X
3	2	3	O
4	3	1	O
5	3	3	X

	Units	Grade Points Earned
Fall	20	46
Winter	18	54
Spring	5	20

	Units	Grade Points Earned
Fall	5	10.0
Winter	5	13.5
Spring	22	81.4

	Lisa's Quarter GPA	Bart's Quarter GPA
Fall	2.3	2.0
Winter	3.0	2.7
Spring	4.0	3.7

Lecture 5 – Pivoting and Simpson's Paradox¶

DSC 80, Winter 2023¶

Announcements¶

Agenda¶

Grouping¶

Discussion Question¶

Grouping with multiple columns¶

Grouping and indexes¶

Pivoting¶

Mean body mass for every combination of species and island¶

pivot_table¶

Example¶

Example¶

Distributions¶

Joint distribution¶

Marginal probabilities¶

Conditional probabilities¶

Conditional probabilities¶

Reshaping DataFrames¶

pivot_table aggregates and reshapes¶

Example: Tic-tac-toe¶

pivot_table = groupby + pivot¶

Reshaping¶

Simpson's paradox¶

Example: Grades¶

Quarter-specific vs. overall GPAs¶

What happened?¶

Simpson's paradox¶

Example: How Berkeley was almost sued for gender discrimination (1973)¶

What happened?¶

Caution!¶

But then...¶

Do these conflict?¶

Do these conflict?¶

Example: Restaurant reviews and phone types¶

Verifying Simpson's paradox¶

Takeaways¶

Further reading¶

Aside: Working with time series data¶

Time series – why now?¶

Datetime types¶

The datetime module¶

Times in pandas¶

Example: Exam speeds¶

Summary, next time¶

Summary¶

Next time¶

`pivot_table`¶

`pivot_table` aggregates and reshapes¶

`pivot_table` = `groupby` + `pivot`¶

The `datetime` module¶

Times in `pandas`¶