import pandas as pd
import numpy as np

import matplotlib.pyplot as plt
plt.style.use('ggplot')
plt.rcParams['figure.figsize'] = (10, 5)


flights = pd.read_csv('data/flightdiary_2023_01_09_02_58.csv')
flights.head()


flights.shape

(149, 19)


flights.head()


flights = flights[['Date', 'Flight number', 'From', 'To', 'Airline']]
flights


flights['From'].head(10)

0                         Windsor / Windsor (YQG/CYQG)
1                         Toronto / Pearson (YYZ/CYYZ)
2                     Vancouver / Vancouver (YVR/CYVR)
3                       Kamloops / Kamloops (YKA/CYKA)
4                     Vancouver / Vancouver (YVR/CYVR)
5                         Toronto / Pearson (YYZ/CYYZ)
6       San Diego / San Diego International (SAN/KSAN)
7    San Francisco / San Francisco International (S...
8    Detroit / Detroit Metropolitan Wayne Co (DTW/K...
9    Detroit / Detroit Metropolitan Wayne Co (DTW/K...
Name: From, dtype: object


def extract_iata(full_name):
    start = full_name.index('(') + 1
    end = full_name.rfind('/')
    return full_name[start:end]


extract_iata('San Diego / San Diego International (SAN/KSAN)')

'SAN'


flights['From'] = flights['From'].apply(extract_iata)
flights['To'] = flights['To'].apply(extract_iata)


flights.head()


counts = (flights
         .groupby(['From', 'To'])
         .count()
         .reset_index()
         .drop(columns=['Flight number', 'Airline'])
         .rename(columns={'Date': 'count'})
         .sort_values('count', ascending=False))

counts


homes = ['SAN', 'DTW']
counts[
    (counts['From'].isin(homes)) &
    (counts['To'].isin(homes))
]


counts.head()


def concatenate_iata(row):
    code1 = row['From']
    code2 = row['To']
    return '-'.join(np.sort([code1, code2]))

concatenate_iata(counts.iloc[1])

'DTW-SFO'


counts['Both'] = counts.apply(concatenate_iata, axis=1)
counts


both_counts = counts.groupby('Both').agg({'count': 'sum', 'From': np.min, 'To': np.max}).sort_values('count', ascending=False)
both_counts


airports = pd.read_csv('data/airports.csv')
airports.head()


airports = airports.loc[airports['iata_code'].notnull(), ['iata_code', 'latitude_deg', 'longitude_deg']]
airports.head()


iata_to_location = airports.set_index('iata_code').T.to_dict(orient='list')
iata_to_location['SAN']

/var/folders/pd/w73mdrsj2836_7gp0brr2q7r0000gn/T/ipykernel_56429/2780243585.py:1: UserWarning: DataFrame columns are not unique, some columns will be omitted.
  iata_to_location = airports.set_index('iata_code').T.to_dict(orient='list')

[32.7336006165, -117.190002441]


both_counts.head()


both_counts['From loc'] = both_counts['From'].apply(lambda x: iata_to_location[x])
both_counts['Away loc'] = both_counts['To'].apply(lambda x: iata_to_location[x])


both_counts.head()


!pip install folium

Requirement already satisfied: folium in /Users/surajrampure/opt/anaconda3/envs/dsc80/lib/python3.8/site-packages (0.14.0)
Requirement already satisfied: jinja2>=2.9 in /Users/surajrampure/opt/anaconda3/envs/dsc80/lib/python3.8/site-packages (from folium) (3.1.1)
Requirement already satisfied: requests in /Users/surajrampure/opt/anaconda3/envs/dsc80/lib/python3.8/site-packages (from folium) (2.26.0)
Requirement already satisfied: branca>=0.6.0 in /Users/surajrampure/opt/anaconda3/envs/dsc80/lib/python3.8/site-packages (from folium) (0.6.0)
Requirement already satisfied: numpy in /Users/surajrampure/opt/anaconda3/envs/dsc80/lib/python3.8/site-packages (from folium) (1.21.2)
Requirement already satisfied: MarkupSafe>=2.0 in /Users/surajrampure/opt/anaconda3/envs/dsc80/lib/python3.8/site-packages (from jinja2>=2.9->folium) (2.1.1)
Requirement already satisfied: idna<4,>=2.5 in /Users/surajrampure/opt/anaconda3/envs/dsc80/lib/python3.8/site-packages (from requests->folium) (3.3)
Requirement already satisfied: charset-normalizer~=2.0.0 in /Users/surajrampure/opt/anaconda3/envs/dsc80/lib/python3.8/site-packages (from requests->folium) (2.0.12)
Requirement already satisfied: certifi>=2017.4.17 in /Users/surajrampure/opt/anaconda3/envs/dsc80/lib/python3.8/site-packages (from requests->folium) (2022.5.18.1)
Requirement already satisfied: urllib3<1.27,>=1.21.1 in /Users/surajrampure/opt/anaconda3/envs/dsc80/lib/python3.8/site-packages (from requests->folium) (1.26.7)


import folium


flight_map = folium.Map(location=(42.317432, -83.026772), zoom_start=2, width='80%', height='60%')
flight_map


both_counts.head()


folium.PolyLine(both_counts.iloc[0].loc['From loc':].values, color='purple').add_to(flight_map)

<folium.vector_layers.PolyLine at 0x7f9f3449e5b0>


flight_map


def compute_color(count):
    if count > np.percentile(both_counts['count'], 98):
        return 'black'
    elif count > np.percentile(both_counts['count'], 95):
        return 'purple'
    elif count > 1:
        return 'red'
    else:
        return 'orange'


both_counts.head()


for route_str, row in both_counts.iterrows():
    route = [row['From loc'], row['Away loc']]
    color = compute_color(row['count'])
    folium.PolyLine(route, color=color).add_to(flight_map)


flight_map

Sunday	Monday	Tuesday	Wednesday	Thursday	Friday	Saturday
	Lecture		Lecture & Discussion		Lecture
	Lab due			Project/checkpoint due		Lab reflection due (extra credit)

	Date	Flight number	From	To	Dep time	Arr time	Duration	Airline	Aircraft	Registration	Seat number	Seat type	Flight class	Flight reason	Note	Dep_id	Arr_id	Airline_id	Aircraft_id
0	2021-07-12	AC8874	Windsor / Windsor (YQG/CYQG)	Toronto / Pearson (YYZ/CYYZ)	17:00:00	18:03:00	01:03:00	Air Canada (AC/ACA)	Bombardier Dash 8-300 (DH8C)	C-GHTA	NaN	3	1	1	NaN	3413	3500	13	609
1	2021-07-12	AC127	Toronto / Pearson (YYZ/CYYZ)	Vancouver / Vancouver (YVR/CYVR)	19:00:00	20:46:00	04:46:00	Air Canada (AC/ACA)	Boeing 787-9 (B789)	C-FRSR	NaN	0	0	0	NaN	3500	3466	13	2088
2	2021-07-14	8P1205	Vancouver / Vancouver (YVR/CYVR)	Kamloops / Kamloops (YKA/CYKA)	14:35:00	15:25:00	00:50:00	Pacific Coastal Airlines (8P/PCO)	Beechcraft 1900 (B190)	C-GPCL	NaN	0	0	0	NaN	3466	3368	1011	189
3	2021-07-15	8P1206	Kamloops / Kamloops (YKA/CYKA)	Vancouver / Vancouver (YVR/CYVR)	15:50:00	16:40:00	00:50:00	Pacific Coastal Airlines (8P/PCO)	Beechcraft 1900 (B190)	C-GPCE	NaN	0	0	0	NaN	3368	3466	1011	189
4	2021-07-17	AC114	Vancouver / Vancouver (YVR/CYVR)	Toronto / Pearson (YYZ/CYYZ)	11:30:00	18:50:00	04:20:00	Air Canada (AC/ACA)	Boeing 777-300ER (B77W)	C-FIUV	NaN	0	0	0	NaN	3466	3500	13	2023

	Date	Flight number	From	To	Dep time	Arr time	Duration	Airline	Aircraft	Registration	Seat number	Seat type	Flight class	Flight reason	Note	Dep_id	Arr_id	Airline_id	Aircraft_id
0	2021-07-12	AC8874	Windsor / Windsor (YQG/CYQG)	Toronto / Pearson (YYZ/CYYZ)	17:00:00	18:03:00	01:03:00	Air Canada (AC/ACA)	Bombardier Dash 8-300 (DH8C)	C-GHTA	NaN	3	1	1	NaN	3413	3500	13	609
1	2021-07-12	AC127	Toronto / Pearson (YYZ/CYYZ)	Vancouver / Vancouver (YVR/CYVR)	19:00:00	20:46:00	04:46:00	Air Canada (AC/ACA)	Boeing 787-9 (B789)	C-FRSR	NaN	0	0	0	NaN	3500	3466	13	2088
2	2021-07-14	8P1205	Vancouver / Vancouver (YVR/CYVR)	Kamloops / Kamloops (YKA/CYKA)	14:35:00	15:25:00	00:50:00	Pacific Coastal Airlines (8P/PCO)	Beechcraft 1900 (B190)	C-GPCL	NaN	0	0	0	NaN	3466	3368	1011	189
3	2021-07-15	8P1206	Kamloops / Kamloops (YKA/CYKA)	Vancouver / Vancouver (YVR/CYVR)	15:50:00	16:40:00	00:50:00	Pacific Coastal Airlines (8P/PCO)	Beechcraft 1900 (B190)	C-GPCE	NaN	0	0	0	NaN	3368	3466	1011	189
4	2021-07-17	AC114	Vancouver / Vancouver (YVR/CYVR)	Toronto / Pearson (YYZ/CYYZ)	11:30:00	18:50:00	04:20:00	Air Canada (AC/ACA)	Boeing 777-300ER (B77W)	C-FIUV	NaN	0	0	0	NaN	3466	3500	13	2023

	Date	Flight number	From	To	Airline
0	2021-07-12	AC8874	Windsor / Windsor (YQG/CYQG)	Toronto / Pearson (YYZ/CYYZ)	Air Canada (AC/ACA)
1	2021-07-12	AC127	Toronto / Pearson (YYZ/CYYZ)	Vancouver / Vancouver (YVR/CYVR)	Air Canada (AC/ACA)
2	2021-07-14	8P1205	Vancouver / Vancouver (YVR/CYVR)	Kamloops / Kamloops (YKA/CYKA)	Pacific Coastal Airlines (8P/PCO)
3	2021-07-15	8P1206	Kamloops / Kamloops (YKA/CYKA)	Vancouver / Vancouver (YVR/CYVR)	Pacific Coastal Airlines (8P/PCO)
4	2021-07-17	AC114	Vancouver / Vancouver (YVR/CYVR)	Toronto / Pearson (YYZ/CYYZ)	Air Canada (AC/ACA)
...	...	...	...	...	...
144	2022-11-28	DL179	Amsterdam / Schiphol (AMS/EHAM)	Portland / Portland (PDX/KPDX)	Delta Air Lines (DL/DAL)
145	2022-11-28	AS724	Portland / Portland (PDX/KPDX)	San Diego / San Diego International (SAN/KSAN)	Alaska Airlines (AS/ASA)
146	2022-12-09	DL934	San Diego / San Diego International (SAN/KSAN)	Detroit / Detroit Metropolitan Wayne Co (DTW/K...	Delta Air Lines (DL/DAL)
147	2023-01-06	UA2681	Detroit / Detroit Metropolitan Wayne Co (DTW/K...	Denver / Denver (DEN/KDEN)	United Airlines (UA/UAL)
148	2023-01-06	UA540	Denver / Denver (DEN/KDEN)	San Diego / San Diego International (SAN/KSAN)	United Airlines (UA/UAL)

	id	ident	type	name	latitude_deg	longitude_deg	elevation_ft	continent	iso_country	iso_region	municipality	scheduled_service	gps_code	iata_code	local_code	home_link	wikipedia_link	keywords
0	6523	00A	heliport	Total Rf Heliport	40.070801	-74.933601	11.0	NaN	US	US-PA	Bensalem	no	00A	NaN	00A	NaN	NaN	NaN
1	323361	00AA	small_airport	Aero B Ranch Airport	38.704022	-101.473911	3435.0	NaN	US	US-KS	Leoti	no	00AA	NaN	00AA	NaN	NaN	NaN
2	6524	00AK	small_airport	Lowell Field	59.949200	-151.695999	450.0	NaN	US	US-AK	Anchor Point	no	00AK	NaN	00AK	NaN	NaN	NaN
3	6525	00AL	small_airport	Epps Airpark	34.864799	-86.770302	820.0	NaN	US	US-AL	Harvest	no	00AL	NaN	00AL	NaN	NaN	NaN
4	6526	00AR	closed	Newport Hospital & Clinic Heliport	35.608700	-91.254898	237.0	NaN	US	US-AR	Newport	no	NaN	NaN	NaN	NaN	NaN	00AR

	From	To	count
35	DTW	SFO	12
78	SFO	DTW	12
33	DTW	SAN	6
70	SAN	DTW	5
83	SFO	SAN	4
...	...	...	...
34	DTW	SEA	1
32	DTW	RDU	1
31	DTW	ORD	1
30	DTW	MDW	1
49	JFK	AUH	1

	From	To	count	Both
35	DTW	SFO	12	DTW-SFO
78	SFO	DTW	12	DTW-SFO
33	DTW	SAN	6	DTW-SAN
70	SAN	DTW	5	DTW-SAN
83	SFO	SAN	4	SAN-SFO
...	...	...	...	...
34	DTW	SEA	1	DTW-SEA
32	DTW	RDU	1	DTW-RDU
31	DTW	ORD	1	DTW-ORD
30	DTW	MDW	1	DTW-MDW
49	JFK	AUH	1	AUH-JFK

	count	From	To
Both
DTW-SFO	24	DTW	SFO
DTW-SAN	11	DTW	SAN
SAN-SFO	6	SAN	SFO
DTW-LGA	6	DTW	LGA
DEN-DTW	5	DEN	DTW
...	...	...	...
DTW-ORD	1	DTW	ORD
AMS-LHR	1	LHR	AMS
DTW-PHX	1	PHX	DTW
DTW-SEA	1	DTW	SEA
DTW-PHL	1	PHL	DTW

	iata_code	latitude_deg	longitude_deg
225	UTK	11.222000	169.852005
443	OCA	25.325399	-80.274803
600	PQS	61.934601	-162.899994
679	CSE	38.851918	-106.928341
1096	JCY	30.251801	-98.622498

	count	From	To	From loc	Away loc
Both
DTW-SFO	24	DTW	SFO	[42.212398529052734, -83.35340118408203]	[37.61899948120117, -122.375]
DTW-SAN	11	DTW	SAN	[42.212398529052734, -83.35340118408203]	[32.7336006165, -117.190002441]
SAN-SFO	6	SAN	SFO	[32.7336006165, -117.190002441]	[37.61899948120117, -122.375]
DTW-LGA	6	DTW	LGA	[42.212398529052734, -83.35340118408203]	[40.777199, -73.872597]
DEN-DTW	5	DEN	DTW	[39.861698150635, -104.672996521]	[42.212398529052734, -83.35340118408203]

	From	To	count
35	DTW	SFO	12
78	SFO	DTW	12
33	DTW	SAN	6
70	SAN	DTW	5
83	SFO	SAN	4
...	...	...	...
34	DTW	SEA	1
32	DTW	RDU	1
31	DTW	ORD	1
30	DTW	MDW	1
49	JFK	AUH	1

Lecture 1 – Introduction¶

DSC 80, Winter 2023¶

Welcome to DSC 80! 🎉

Agenda¶

About the instructor¶

Suraj Rampure (call me Suraj, pronounced “soo-rudge”)¶

Course staff¶

What is data science? 🤔¶

What is data science?¶

The DSC 10 approach¶

What is data science?¶

What is data science?¶

What does a data scientist do?¶

What does a data scientist do?¶

Analyzing Wordle trends¶

Is Wordle Dying? The Data Weighs In¶

ChatGPT¶

Data science involves people 🧍¶

Warning!¶

Course content¶

Course goals¶

Course outcomes¶

Topics¶

Course logistics¶

Course website¶

dsc80.com

Getting set up¶

Accessing course content on GitHub¶

Environment setup¶

Assignments¶

Discussions and lab reflections¶

Exams¶

A typical week in DSC 80¶

Resources¶

Support 🫂¶

The data science lifecycle 🚴¶

The scientific method¶

The data science lifecycle¶

Example: myFlightradar24¶

myFlightradar24¶

Step 0: Keep just the relevant columns¶

Step 1: Extract 3-letter airport codes¶

Step 2: Find the number of flights between each airport pair¶

Step 3: Create unique strings for each airport pair¶

Step 4: Actually find the number of flights between each airport pair¶

Step 5: Find the latitude and longitude of each airport¶

Step 6: Draw a line between a single pair of airports¶

Step 6: Draw a line for each pair of airports¶

Next time¶

	From	To	count
35	DTW	SFO	12
78	SFO	DTW	12
33	DTW	SAN	6
70	SAN	DTW	5
83	SFO	SAN	4
...	...	...	...
34	DTW	SEA	1
32	DTW	RDU	1
31	DTW	ORD	1
30	DTW	MDW	1
49	JFK	AUH	1