Agent skills
data-validation-reporter

Agent skill

data-validation-reporter

Generate interactive validation reports with quality scoring, missing data analysis, and type checking. Combines Pandas validation, Plotly visualization, and YAML configuration for comprehensive data quality reporting.

View SKILL.md on GitHub Repository

Stars 163

Forks 31

Install this agent skill to your Project

npx add-skill https://github.com/majiayu000/claude-skill-registry/tree/main/skills/data/data-validation-reporter

SKILL.md

Data Validation Reporter Skill

Overview

This skill provides a complete data validation and reporting workflow:

Data validation with configurable quality rules
Interactive Plotly reports with 4-panel dashboards
YAML configuration for validation parameters
Quality scoring (0-100 scale)
Missing data analysis with visualizations
Type checking with automated detection

Pattern Analysis

Discovered from commit: 47b64945 (digitalmodel) Original file: src/data_procurement/validators/data_validator.py Reusability score: 80/100

Patterns used:

plotly_viz (interactive dashboards)
pandas_processing (DataFrame validation)
data_validation (quality scoring)
yaml_config (configuration loading)
logging (structured logging)

Core Capabilities

1. Data Validation

python

validator = DataValidator(config_path="config/validation.yaml")
results = validator.validate_dataframe(
    df=data,
    required_fields=["id", "value", "timestamp"],
    unique_field="id"
)

Validation checks:

Empty DataFrame detection
Required field verification
Missing data analysis (per-column percentages)
Duplicate detection
Data type validation
Numeric field validation

2. Quality Scoring Algorithm

Score calculation (0-100 scale):

Base score: 100
Missing required fields: -20
High missing data (>50%): -30
Moderate missing data (>20%): -15
Duplicate records: -2 per duplicate (max -20)
Type issues: -5 per issue (max -15)

Status thresholds:

✅ PASS: score ≥ 60
❌ FAIL: score < 60

3. Interactive Reporting

4-Panel Plotly Dashboard:

Quality Score Gauge - Color-coded indicator (green/yellow/red)
Missing Data Chart - Bar chart showing missing % per column
Type Issues Chart - Bar chart of validation errors
Summary Table - Key metrics overview

Features:

Responsive design
Interactive hover tooltips
Zoom and pan controls
Export to PNG/SVG
CDN-based Plotly (no local dependencies)

4. YAML Configuration

yaml

# config/validation.yaml
validation:
  required_fields:
    - id
    - timestamp
    - value

  unique_fields:
    - id

  numeric_fields:
    - year_built
    - length_m
    - displacement_tonnes

  thresholds:
    max_missing_pct: 0.2  # 20%
    min_quality_score: 60
    max_duplicates: 0

Usage

Basic Validation

python

from data_validator import DataValidator
import pandas as pd

# Initialize with config
validator = DataValidator(config_path="config/validation.yaml")

# Load data
df = pd.read_csv("data/input.csv")

# Validate
results = validator.validate_dataframe(
    df=df,
    required_fields=["id", "name", "value"],
    unique_field="id"
)

# Check results
if results['valid']:
    print(f"✅ PASS - Quality Score: {results['quality_score']:.1f}/100")
else:
    print(f"❌ FAIL - Issues: {len(results['issues'])}")
    for issue in results['issues']:
        print(f"  - {issue}")

Generate Interactive Report

python

from pathlib import Path

# Generate HTML report
validator.generate_interactive_report(
    validation_results=results,
    output_path=Path("reports/validation_report.html")
)

print("📊 Interactive report saved to reports/validation_report.html")

Text Report

python

# Generate text summary
text_report = validator.generate_report(results)
print(text_report)

Files Included

data-validation-reporter/
├── SKILL.md                    # This file
├── validator_template.py       # Validator class template
├── config_template.yaml        # YAML configuration template
├── example_usage.py            # Example implementation
└── README.md                   # Quick reference

Integration

Add to Existing Project

Copy validator template:

bash

cp validator_template.py src/validators/data_validator.py

Create configuration:

bash

cp config_template.yaml config/validation.yaml
# Edit config/validation.yaml with your validation rules

Install dependencies:

bash

uv pip install pandas plotly pyyaml

Use in pipeline:

python

from src.validators.data_validator import DataValidator

validator = DataValidator(config_path="config/validation.yaml")
results = validator.validate_dataframe(df)
validator.generate_interactive_report(results, Path("reports/output.html"))

Customization

Extend Validation Rules

python

class CustomValidator(DataValidator):
    def _check_business_rules(self, df: pd.DataFrame) -> List[str]:
        """Add custom business logic validation."""
        issues = []

        # Example: Check date ranges
        if 'start_date' in df.columns and 'end_date' in df.columns:
            invalid_dates = (df['end_date'] < df['start_date']).sum()
            if invalid_dates > 0:
                issues.append(f'{invalid_dates} records with end_date before start_date')

        return issues

Custom Visualizations

python

# Add 5th panel to dashboard
fig = make_subplots(
    rows=3, cols=2,
    specs=[
        [{'type': 'indicator'}, {'type': 'bar'}],
        [{'type': 'bar'}, {'type': 'table'}],
        [{'type': 'scatter', 'colspan': 2}, None]  # New panel
    ]
)

# Add custom plot
fig.add_trace(
    go.Scatter(x=df['date'], y=df['quality_score'], name='Quality Trend'),
    row=3, col=1
)

Performance

Benchmarks (tested on 100,000 row dataset):

Validation: ~2.5 seconds
Report generation: ~1.2 seconds
Total: ~3.7 seconds

Memory usage: ~150MB for 100k rows

Scalability:

Tested up to 1M rows
Linear scaling for validation
Report generation optimized with sampling for large datasets

Best Practices

Configuration Management:
- Store validation rules in YAML (version controlled)
- Use environment-specific configs (dev/staging/prod)
- Document validation thresholds
Logging:
- Enable DEBUG level during development
- Use INFO level in production
- Log all validation failures
Reporting:
- Generate reports for all production data loads
- Archive reports with timestamps
- Include reports in data lineage
Quality Gates:
- Set minimum quality score thresholds
- Block pipelines on validation failures
- Alert on quality degradation

Dependencies

txt

pandas>=1.5.0
plotly>=5.14.0
pyyaml>=6.0

Related Skills

csv-data-loader - Load and preprocess CSV data
plotly-dashboard - Advanced dashboard creation
data-quality-monitor - Continuous quality monitoring

Examples

See example_usage.py for complete working examples:

Basic validation workflow
Custom validation rules
Batch validation (multiple files)
Quality trend analysis
Integration with data pipelines

Change Log

v1.0.0 (2026-01-07)

Initial skill creation from production code
4-panel Plotly dashboard
YAML configuration support
Quality scoring algorithm
Missing data and type validation

License

Part of workspace-hub skill library. See root LICENSE.

Support

For issues or enhancements, see workspace-hub issue tracker.

Maintainer

majiayu000 Core maintainer

Source details

Full Name: majiayu000/claude-skill-registry
Branch: main
Path in repo: skills/data/data-validation-reporter
License: MIT License

Featured Tools

Join Our Newsletter

Stay updated with the latest AI tools, news, and offers by subscribing to our weekly newsletter.

Recommended Agent Skills

Expand your agent's capabilities with these related and highly-rated skills.

majiayu000/claude-skill-registry

agent-ops-spec

Manage specification documents in .agent/specs/. Use when user provides requirements, acceptance criteria, or feature descriptions that need to be tracked and validated against implementation.

163 31

Explore

majiayu000/claude-skill-registry

agent-ops-state

Maintain .agent state files. Use at session start, after meaningful steps, and before concluding: read/update constitution/memory/focus/issues/baseline consistently.

163 31

Explore

majiayu000/claude-skill-registry

agent-ops-spec

Manage specification documents in .agent/specs/. Use when user provides requirements, acceptance criteria, or feature descriptions that need to be tracked and validated against implementation.

163 31

Explore

majiayu000/claude-skill-registry

agent-ops-testing

Test strategy, execution, and coverage analysis. Use when designing tests, running test suites, or analyzing test results beyond baseline checks.

163 31

Explore

majiayu000/claude-skill-registry

agent-ops-testing

Test strategy, execution, and coverage analysis. Use when designing tests, running test suites, or analyzing test results beyond baseline checks.

163 31

Explore

majiayu000/claude-skill-registry

agent-ops-state

Maintain .agent state files. Use at session start, after meaningful steps, and before concluding: read/update constitution/memory/focus/issues/baseline consistently.

163 31

Explore

Didn't find tool you were looking for?

Search AI Tools

Install this agent skill to your Project

SKILL.md

Data Validation Reporter Skill

Overview

Pattern Analysis

Core Capabilities

1. Data Validation

2. Quality Scoring Algorithm

3. Interactive Reporting

4. YAML Configuration

Usage

Basic Validation

Generate Interactive Report

Text Report

Files Included

Integration

Add to Existing Project

Customization

Extend Validation Rules

Custom Visualizations

Performance

Best Practices

Dependencies

Related Skills

Examples

Change Log

License

Support

Recommended Agent Skills

agent-ops-spec

agent-ops-state

agent-ops-spec

agent-ops-testing

agent-ops-testing

agent-ops-state