import pandas as pd
import numpy as np
import os

import warnings
warnings.simplefilter('ignore')

from IPython.display import display, IFrame

def show_paradox_slides():
    src = 'https://docs.google.com/presentation/d/e/2PACX-1vSbFSaxaYZ0NcgrgqZLvjhkjX-5MQzAITWAsEFZHnix3j1c0qN8Vd1rogTAQP7F7Nf5r-JWExnGey7h/embed?start=false'
    width = 960
    height = 569
    display(IFrame(src, width, height))


import seaborn as sns
penguins = sns.load_dataset('penguins').dropna()
penguins.head()


penguins['species'].value_counts()

Adelie       146
Gentoo       119
Chinstrap     68
Name: species, dtype: int64


penguins.groupby(['species', 'island'])['body_mass_g'].mean()

species    island   
Adelie     Biscoe       3709.659091
           Dream        3701.363636
           Torgersen    3708.510638
Chinstrap  Dream        3733.088235
Gentoo     Biscoe       5092.436975
Name: body_mass_g, dtype: float64


penguins.pivot_table(index='species', 
                     columns='island', 
                     values='body_mass_g', 
                     aggfunc='mean')


%reload_ext pandas_tutor


%%pt

penguins.pivot_table(index='species', 
                     columns='island', 
                     values='body_mass_g', 
                     aggfunc='mean')


penguins.pivot_table(index='island', 
                     columns='species', 
                     values='bill_length_mm', 
                     aggfunc='count')


penguins.pivot_table(index='island', 
                     columns='species', 
                     values='bill_length_mm', 
                     aggfunc='count', 
                     fill_value=0)


penguins.pivot_table(index='species', columns='sex', values='body_mass_g', aggfunc='median')


counts = penguins.pivot_table(index='species', 
                              columns='sex', 
                              values='body_mass_g', 
                              aggfunc='count', 
                              fill_value=0)
counts


joint = counts / counts.sum().sum()
joint


joint


# Recall, joint.sum(axis=0) sums across the rows, which computes the sum of the **columns**.
joint.sum(axis=0)

sex
Female    0.495495
Male      0.504505
dtype: float64


joint.sum(axis=1)

species
Adelie       0.438438
Chinstrap    0.204204
Gentoo       0.357357
dtype: float64


counts


counts


counts.sum(axis=0)

sex
Female    165
Male      168
dtype: int64


counts / counts.sum(axis=0)


moves = pd.DataFrame([
    [1, 1, 'O'],
    [2, 1, 'X'],
    [2, 2, 'X'],
    [2, 3, 'O'],
    [3, 1, 'O'],
    [3, 3, 'X']
], columns=['i', 'j', 'move'])
moves


moves.pivot(index='i', columns='j', values='move').fillna('')


(
    penguins.groupby(['species', 'sex'])[['body_mass_g']]
            .mean()
            .reset_index()
            .pivot(index='species', columns='sex', values='body_mass_g')
)


penguins.pivot_table(index='species', columns='sex', values='body_mass_g', aggfunc='mean')


lisa = pd.DataFrame([
        [20, 46],
        [18, 54],
        [5, 20]
    ],
    columns=['Units', 'Grade Points Earned'], 
    index=['Fall', 'Winter', 'Spring'])

bart = pd.DataFrame([
        [5, 10],
        [5, 13.5],
        [22, 81.4]
    ],
    columns=['Units', 'Grade Points Earned'], 
    index=['Fall', 'Winter', 'Spring'])


lisa


bart


quarterly_gpas = pd.DataFrame(
    {
        "Lisa's Quarter GPA": lisa['Grade Points Earned'] / lisa['Units'],
        "Bart's Quarter GPA": bart['Grade Points Earned'] / bart['Units']
    }
)

quarterly_gpas


tot = lisa.sum()
tot['Grade Points Earned'] / tot['Units']

2.7906976744186047


tot = bart.sum()
tot['Grade Points Earned'] / tot['Units']

3.278125


quarterly_gpas.assign(Lisa_units=lisa['Units']) \
              .assign(Bart_units=bart['Units']) \
              .iloc[:, [0, 2, 1, 3]]


show_paradox_slides()


ratings_path = os.path.join('data', 'ratings.csv')
ratings = pd.read_csv(ratings_path)
ratings.sample(5).head()


ratings['phone'].value_counts(normalize=True)

iPhone     0.651452
Android    0.348548
Name: phone, dtype: float64


ratings.pivot_table(index='phone', columns='restaurant', values='rating', aggfunc='mean')


ratings.pivot_table(index='phone', columns='restaurant', values='rating', aggfunc='count')


ratings.groupby('restaurant').mean()


import datetime


datetime.datetime.now()

datetime.datetime(2023, 4, 12, 10, 47, 41, 78224)


datetime.datetime.now() + datetime.timedelta(days=3, hours=5)

datetime.datetime(2023, 4, 15, 15, 47, 41, 82060)


datetime.datetime.now().timestamp()

1681321661.085464


pd.Timestamp(year=1998, month=11, day=26)

Timestamp('1998-11-26 00:00:00')


final_start = pd.to_datetime('March 22nd, 2023, 11:30AM')
final_start

Timestamp('2023-03-22 11:30:00')


final_finish = pd.to_datetime('March 22nd, 2023, 2:30PM')
final_finish

Timestamp('2023-03-22 14:30:00')


# 0 is Monday, 1 is Tuesday, etc.
final_finish.dayofweek

2


final_finish.year

2023


final_finish - final_start

Timedelta('0 days 03:00:00')


exam_times_path = os.path.join('data', 'exam-times.csv')
exam_times = pd.read_csv(exam_times_path)
exam_times


# Step 1: Convert the time columns to timestamps, using pd.to_datetime.
exam_times['start_exam'] = pd.to_datetime(exam_times['start_exam'])
exam_times['finish_exam'] = pd.to_datetime(exam_times['finish_exam'])
exam_times


# Note that datetime64[ns] is the data type pandas uses to store timestamps in a Series/DataFrame.
exam_times.dtypes

name                   object
start_exam     datetime64[ns]
finish_exam    datetime64[ns]
section                object
dtype: object


# Step 2: Find the difference between the two time columns.
exam_times['difference'] = exam_times['finish_exam'] - exam_times['start_exam']
exam_times


exam_times.dtypes

name                    object
start_exam      datetime64[ns]
finish_exam     datetime64[ns]
section                 object
difference     timedelta64[ns]
dtype: object


# Step 3: Sort by the difference in descending order and take the first row.
exam_times.sort_values('difference', ascending=False)['name'].iloc[0]

'Billy'

	species	island	bill_length_mm	bill_depth_mm	flipper_length_mm	body_mass_g	sex
0	Adelie	Torgersen	39.1	18.7	181.0	3750.0	Male
1	Adelie	Torgersen	39.5	17.4	186.0	3800.0	Female
2	Adelie	Torgersen	40.3	18.0	195.0	3250.0	Female
4	Adelie	Torgersen	36.7	19.3	193.0	3450.0	Female
5	Adelie	Torgersen	39.3	20.6	190.0	3650.0	Male

species	Adelie	Chinstrap	Gentoo
island
Biscoe	44.0	NaN	119.0
Dream	55.0	68.0	NaN
Torgersen	47.0	NaN	NaN

Phone Type	Stars for Dirty Birds	Stars for The Loft
Android	4.24	4.0
iPhone	2.99	2.79
All	3.32	3.37

	phone	restaurant	rating
4441	iPhone	The Loft	3
2184	iPhone	Dirty Birds	2
1085	Android	The Loft	4
616	Android	Dirty Birds	5
102	Android	Dirty Birds	4

restaurant	Dirty Birds	The Loft
phone
Android	4.235669	4.000000
iPhone	2.987957	2.787971

island	Biscoe	Dream	Torgersen
species
Adelie	3709.659091	3701.363636	3708.510638
Chinstrap	NaN	3733.088235	NaN
Gentoo	5092.436975	NaN	NaN

sex	Female	Male
species
Adelie	3400.0	4000.0
Chinstrap	3550.0	3950.0
Gentoo	4700.0	5500.0

sex	Female	Male
species
Adelie	0.219219	0.219219
Chinstrap	0.102102	0.102102
Gentoo	0.174174	0.183183

sex	Female	Male
species
Adelie	0.442424	0.434524
Chinstrap	0.206061	0.202381
Gentoo	0.351515	0.363095

sex	Female	Male
species
Adelie	3368.835616	4043.493151
Chinstrap	3527.205882	3938.970588
Gentoo	4679.741379	5484.836066

	name	start_exam	finish_exam	section
0	Annie	15:00	16:00	A
1	Billy	15:02	17:58	A
2	Sally	15:01	17:05	A
3	Tommy	15:00	16:55	A
4	Junior	18:00	20:00	B
5	Rex	18:06	20:50	B
6	Flash	19:07	20:59	B

	name	start_exam	finish_exam	section
0	Annie	2023-04-12 15:00:00	2023-04-12 16:00:00	A
1	Billy	2023-04-12 15:02:00	2023-04-12 17:58:00	A
2	Sally	2023-04-12 15:01:00	2023-04-12 17:05:00	A
3	Tommy	2023-04-12 15:00:00	2023-04-12 16:55:00	A
4	Junior	2023-04-12 18:00:00	2023-04-12 20:00:00	B
5	Rex	2023-04-12 18:06:00	2023-04-12 20:50:00	B
6	Flash	2023-04-12 19:07:00	2023-04-12 20:59:00	B

	i	j	move
0	1	1	O
1	2	1	X
2	2	2	X
3	2	3	O
4	3	1	O
5	3	3	X

	Units	Grade Points Earned
Fall	20	46
Winter	18	54
Spring	5	20

	Units	Grade Points Earned
Fall	5	10.0
Winter	5	13.5
Spring	22	81.4

	Lisa's Quarter GPA	Bart's Quarter GPA
Fall	2.3	2.0
Winter	3.0	2.7
Spring	4.0	3.7

Lecture 5 – Pivoting and Simpson's Paradox¶

DSC 80, Spring 2023¶

Agenda¶

Grouping¶

Pivoting¶

Mean body mass for every combination of species and island¶

pivot_table¶

Example¶

Example¶

Distributions¶

Joint distribution¶

Marginal probabilities¶

Conditional probabilities¶

Conditional probabilities¶

Reshaping DataFrames¶

pivot_table aggregates and reshapes¶

Example: Tic-tac-toe¶

pivot_table = groupby + pivot¶

Reshaping¶

Simpson's paradox¶

Example: Grades¶

Quarter-specific vs. overall GPAs¶

What happened?¶

Simpson's paradox¶

Example: How Berkeley was almost sued for gender discrimination (1973)¶

What happened?¶

Caution!¶

But then...¶

Do these conflict?¶

Do these conflict?¶

Example: Restaurant reviews and phone types¶

Verifying Simpson's paradox¶

Takeaways¶

Further reading¶

Aside: Working with time series data¶

Time series – why now?¶

Datetime types¶

The datetime module¶

Times in pandas¶

Example: Exam speeds¶

Summary, next time¶

Summary¶

Next time¶

`pivot_table`¶

`pivot_table` aggregates and reshapes¶

`pivot_table` = `groupby` + `pivot`¶

The `datetime` module¶

Times in `pandas`¶