SKILL.md

Pandas Best Practices

Expert guidelines for Pandas development, focusing on data manipulation, analysis, and efficient DataFrame operations.

Code Style and Structure

Write concise, technical responses with accurate Python examples

Prioritize reproducibility in data analysis workflows

Use functional programming; avoid unnecessary classes

Prefer vectorized operations over explicit loops

Use descriptive variable names reflecting data content

Follow PEP 8 style guidelines

DataFrame Creation and I/O

Use pd.read_csv(), pd.read_excel(), pd.read_json() with appropriate parameters

Specify dtype parameter to ensure correct data types on load

Use parse_dates for automatic datetime parsing

Set index_col when the data has a natural index column

Use chunksize for reading large files incrementally

Data Selection

Use .loc[] for label-based indexing

Use .iloc[] for integer position-based indexing

Avoid chained indexing (e.g., df['col'][0]) - use .loc or .iloc instead

Use boolean indexing for conditional selection: df[df['col'] > value]

Use .query() method for complex filtering conditions

Method Chaining

Prefer method chaining for data transformations when possible

Use .pipe() for applying custom functions in a chain

Chain operations like .assign(), .query(), .groupby(), .agg()

Keep chains readable by breaking across multiple lines

Data Cleaning and Validation

Missing Data

Check for missing data with .isna() and .info()

Handle missing data appropriately: .fillna(), .dropna(), or imputation

Use pd.NA for nullable integer and boolean types

Document decisions about missing data handling

Data Quality Checks

Implement data quality checks at the beginning of analysis

Validate data types with .dtypes and convert as needed

Check for duplicates with .duplicated() and handle appropriately

Use .describe() for quick statistical overview

Type Conversion

Use .astype() for explicit type conversion

Use pd.to_datetime() for date parsing

Use pd.to_numeric() with errors='coerce' for safe numeric conversion

Utilize categorical data types for low-cardinality string columns

Grouping and Aggregation

GroupBy Operations

Use .groupby() for efficient aggregation operations

Specify aggregation functions with .agg() for multiple operations

Use named aggregation for clearer output column names

Consider .transform() for broadcasting results back to original shape

Pivot Tables and Reshaping

Use .pivot_table() for multi-dimensional aggregation

Use .melt() to convert wide to long format

Use .pivot() to convert long to wide format

Use .stack() and .unstack() for hierarchical index manipulation

Performance Optimization

Memory Efficiency

Use categorical data types for low-cardinality strings

Downcast numeric types when appropriate

Use pd.eval() and .eval() for large expression evaluation

Computation Speed

Use vectorized operations instead of .apply() with row-wise functions

Prefer built-in aggregation functions over custom ones

Use .values or .to_numpy() for NumPy operations when faster

Avoiding Common Pitfalls

Avoid iterating with .iterrows() - use vectorized operations

Don't modify DataFrames while iterating

Be aware of SettingWithCopyWarning - use .copy() when needed

Avoid growing DataFrames row by row - collect in list and create once

Time Series Operations

Use DatetimeIndex for time series data

Leverage .resample() for time-based aggregation

Use .shift() and .diff() for lag operations

Use .rolling() and .expanding() for window calculations

Merging and Joining

Use .merge() for SQL-style joins

Specify how parameter: 'inner', 'outer', 'left', 'right'

Use validate parameter to check join cardinality

Use .concat() for stacking DataFrames

Key Conventions

Import as import pandas as pd

Use snake_case for column names when possible

Document data sources and transformations

Keep notebooks reproducible with clear cell execution order

pandas-best-practices

SKILL.md

Pandas Best Practices

Code Style and Structure

DataFrame Creation and I/O

Data Selection

Method Chaining

Data Cleaning and Validation

Missing Data

Data Quality Checks

Type Conversion

Grouping and Aggregation

GroupBy Operations

Pivot Tables and Reshaping

Performance Optimization

Memory Efficiency

Computation Speed

Avoiding Common Pitfalls

Time Series Operations

Merging and Joining

Key Conventions

Stop writing automation&scrapers

pandas-best-practices

SKILL.md

Pandas Best Practices

Code Style and Structure

DataFrame Creation and I/O

Data Selection

Method Chaining

Data Cleaning and Validation

Missing Data

Data Quality Checks

Type Conversion

Grouping and Aggregation

GroupBy Operations

Pivot Tables and Reshaping

Performance Optimization

Memory Efficiency

Computation Speed

Avoiding Common Pitfalls

Time Series Operations

Merging and Joining

Key Conventions

Let your agent run on any real-world website

Related skills

Stop writing automation&scrapers