How can I access FiveThirtyEight Datasets?

FiveThirtyEight Datasets is available as a downloadable dataset at https://data.fivethirtyeight.com/

What can I build with FiveThirtyEight Datasets?

Access cleaned, analysis-ready datasets used in FiveThirtyEight journalism. Reproduce published FiveThirtyEight analyses with original data. Study polling averages, sports statistics, and political science datasets. Use as benchmark datasets for teaching data journalism and statistical modeling

FiveThirtyEight Datasets

Dataset Downloads

About This Dataset

FiveThirtyEight publishes the datasets behind its data journalism articles covering US politics, sports analytics, economics, and culture. Available on GitHub as clean, analysis-ready CSV files, making them ideal for practising data loading, statistical analysis pipelines, and exploratory data workflows in Python.

What You Can Build

1Access cleaned, analysis-ready datasets used in FiveThirtyEight journalism
2Reproduce published FiveThirtyEight analyses with original data
3Study polling averages, sports statistics, and political science datasets
4Use as benchmark datasets for teaching data journalism and statistical modeling

How Python Data Engineers Use FiveThirtyEight Datasets

FiveThirtyEight datasets live on GitHub as CSV files. Engineers use `pandas.read_csv('https://raw.githubusercontent.com/fivethirtyeight/data/master/...')` to load them directly. The data is already cleaned and analysis-ready, making it excellent for teaching pandas and matplotlib.

FiveThirtyEight Datasets for LLM Fine-Tuning and RAG Pipelines

FiveThirtyEight datasets are clean, journalist-vetted training data for AI models in polling analysis, sports prediction, and political science. The election polling averages are particularly useful for time-series forecasting models, while the sports data trains AI that predict game outcomes.

Python Example

# pip install pandas
import pandas as pd

# FiveThirtyEight datasets are hosted on GitHub as CSV files
base = "https://raw.githubusercontent.com/fivethirtyeight/data/master"
df = pd.read_csv(f"{base}/births/US_births_2000-2014_SSA.csv")
print(df.groupby("year")["births"].sum())

Access Dataset

Official dataset source

Dataset Info

Category:Dataset Downloads

Type:Direct Download

Tags:

#csv #batch-processing #finance #sports

Related Datasets

More datasets used by Python data engineers.

International Monetary Fund (IMF) Data

The IMF provides datasets on global economic indicators, including GDP growth, inflation rates, exchange rates, fiscal balances and international trade.

World Bank Data

Access 16,000+ development indicators from the World Bank covering GDP, poverty, health, education, infrastructure, and environment for 200+ countries. Used in data engineering for building global development dashboards, time-series analysis pipelines, and cross-country economic comparison systems in Python.

Bureau of Economic Analysis (BEA) Data

The BEA provides economic data and statistics for the United States, including measures of GDP, national income, consumer spending and trade balances.