Agent skill

eval-harness

Eval-driven development (EDD) ilkelerini uygulayan Claude Code oturumları için formal değerlendirme çerçevesi

View SKILL.md on GitHub Repository

Stars 132,726

Forks 19,206

Install this agent skill to your Project

npx add-skill https://github.com/affaan-m/everything-claude-code/tree/main/docs/tr/skills/eval-harness

SKILL.md

Eval Harness Skill

Claude Code oturumları için eval-driven development (EDD) ilkelerini uygulayan formal değerlendirme çerçevesi.

Ne Zaman Aktifleştirmeli

AI destekli iş akışları için eval-driven development (EDD) kurarken
Claude Code görev tamamlama için geçti/kaldı kriterleri tanımlarken
pass@k metrikleriyle agent güvenilirliğini ölçerken
Prompt veya agent değişiklikleri için regresyon test paketleri oluştururken
Model versiyonları arasında agent performansını benchmark ederken

Felsefe

Eval-Driven Development, eval'ları "AI geliştirmenin birim testleri" olarak ele alır:

İmplementasyondan ÖNCE beklenen davranışı tanımla
Geliştirme sırasında eval'ları sürekli çalıştır
Her değişiklikle regresyonları izle
Güvenilirlik ölçümü için pass@k metriklerini kullan

Eval Tipleri

Capability Eval'ları

Claude'un daha önce yapamadığı bir şeyi yapıp yapamadığını test et:

markdown

[CAPABILITY EVAL: feature-name]
Görev: Claude'un başarması gereken şeyin açıklaması
Başarı Kriterleri:
  - [ ] Kriter 1
  - [ ] Kriter 2
  - [ ] Kriter 3
Beklenen Çıktı: Beklenen sonucun açıklaması

Regression Eval'ları

Değişikliklerin mevcut fonksiyonaliteyi bozmadığından emin ol:

markdown

[REGRESSION EVAL: feature-name]
Baseline: SHA veya checkpoint adı
Testler:
  - existing-test-1: PASS/FAIL
  - existing-test-2: PASS/FAIL
  - existing-test-3: PASS/FAIL
Sonuç: X/Y geçti (önceden Y/Y)

Grader Tipleri

1. Code-Based Grader

Kod kullanarak deterministik kontroller:

bash

# Dosyanın beklenen pattern içerip içermediğini kontrol et
grep -q "export function handleAuth" src/auth.ts && echo "PASS" || echo "FAIL"

# Testlerin geçip geçmediğini kontrol et
npm test -- --testPathPattern="auth" && echo "PASS" || echo "FAIL"

# Build'in başarılı olup olmadığını kontrol et
npm run build && echo "PASS" || echo "FAIL"

2. Model-Based Grader

Açık uçlu çıktıları değerlendirmek için Claude kullan:

markdown

[MODEL GRADER PROMPT]
Aşağıdaki kod değişikliğini değerlendir:
1. Belirtilen sorunu çözüyor mu?
2. İyi yapılandırılmış mı?
3. Edge case'ler işleniyor mu?
4. Hata işleme uygun mu?

Puan: 1-5 (1=kötü, 5=mükemmel)
Gerekçe: [açıklama]

3. Human Grader

Manuel inceleme için işaretle:

markdown

[HUMAN REVIEW REQUIRED]
Değişiklik: Neyin değiştiğinin açıklaması
Sebep: Neden insan incelemesi gerekli
Risk Seviyesi: DÜŞÜK/ORTA/YÜKSEK

Metrikler

pass@k

"k denemede en az bir başarı"

pass@1: İlk deneme başarı oranı
pass@3: 3 denemede başarı
Tipik hedef: pass@3 > %90

pass^k

"Tüm k denemeler başarılı"

Güvenilirlik için daha yüksek çıta
pass^3: Ardışık 3 başarı
Kritik yollar için kullan

Eval İş Akışı

1. Tanımla (Kodlamadan Önce)

markdown

## EVAL DEFINITION: feature-xyz

### Capability Eval'ları
1. Yeni kullanıcı hesabı oluşturabilir
2. Email formatını doğrulayabilir
3. Şifreyi güvenli şekilde hash'leyebilir

### Regression Eval'ları
1. Mevcut login hala çalışıyor
2. Oturum yönetimi değişmedi
3. Logout akışı sağlam

### Başarı Metrikleri
- capability eval'lar için pass@3 > %90
- regression eval'lar için pass^3 = %100

2. Uygula

Tanımlanan eval'ları geçmek için kod yaz.

3. Değerlendir

bash

# Capability eval'ları çalıştır
[Her capability eval'ı çalıştır, PASS/FAIL kaydet]

# Regression eval'ları çalıştır
npm test -- --testPathPattern="existing"

# Rapor oluştur

4. Rapor

markdown

EVAL REPORT: feature-xyz
========================

Capability Eval'ları:
  create-user:     PASS (pass@1)
  validate-email:  PASS (pass@2)
  hash-password:   PASS (pass@1)
  Genel:           3/3 geçti

Regression Eval'ları:
  login-flow:      PASS
  session-mgmt:    PASS
  logout-flow:     PASS
  Genel:           3/3 geçti

Metrikler:
  pass@1: %67 (2/3)
  pass@3: %100 (3/3)

Durum: İNCELEMEYE HAZIR

Entegrasyon Kalıpları

İmplementasyondan Önce

/eval define feature-name

.claude/evals/feature-name.md konumunda eval tanım dosyası oluşturur

İmplementasyon Sırasında

/eval check feature-name

Mevcut eval'ları çalıştırır ve durumu raporlar

İmplementasyondan Sonra

/eval report feature-name

Tam eval raporu oluşturur

Eval Depolama

Eval'ları projede sakla:

.claude/
  evals/
    feature-xyz.md      # Eval tanımı
    feature-xyz.log     # Eval çalıştırma geçmişi
    baseline.json       # Regression baseline'ları

En İyi Uygulamalar

Kodlamadan ÖNCE eval'ları tanımla - Başarı kriterleri hakkında net düşünmeyi zorlar
Eval'ları sık çalıştır - Regresyonları erken yakala
pass@k'yı zaman içinde izle - Güvenilirlik trendlerini gözle
Mümkün olduğunda code grader kullan - Deterministik > olasılıksal
Güvenlik için insan incelemesi - Güvenlik kontrollerini asla tam otomatikleştirme
Eval'ları hızlı tut - Yavaş eval'lar çalıştırılmaz
Eval'ları kodla versiyonla - Eval'lar birinci sınıf artifact'lardır

Örnek: Kimlik Doğrulama Ekleme

markdown

## EVAL: add-authentication

### Faz 1: Tanımla (10 dk)
Capability Eval'ları:
- [ ] Kullanıcı email/şifre ile kayıt olabilir
- [ ] Kullanıcı geçerli kimlik bilgileriyle giriş yapabilir
- [ ] Geçersiz kimlik bilgileri uygun hatayla reddedilir
- [ ] Oturumlar sayfa yeniden yüklemelerinde kalıcıdır
- [ ] Logout oturumu temizler

Regression Eval'ları:
- [ ] Halka açık rotalar hala erişilebilir
- [ ] API yanıtları değişmedi
- [ ] Veritabanı şeması uyumlu

### Faz 2: Uygula (değişir)
[Kod yaz]

### Faz 3: Değerlendir
Çalıştır: /eval check add-authentication

### Faz 4: Raporla
EVAL REPORT: add-authentication
==============================
Capability: 5/5 geçti (pass@3: %100)
Regression: 3/3 geçti (pass^3: %100)
Durum: YAYINLA

Product Eval'ları (v1.8)

Davranış kalitesi sadece birim testlerle yakalanamadığında product eval'ları kullan.

Grader Tipleri

Code grader (deterministik assertion'lar)
Rule grader (regex/şema kısıtlamaları)
Model grader (LLM-as-judge rubric)
Human grader (belirsiz çıktılar için manuel karar)

pass@k Kılavuzu

pass@1: doğrudan güvenilirlik
pass@3: kontrollü yeniden denemeler altında pratik güvenilirlik
pass^3: kararlılık testi (3 çalıştırmanın tümü geçmeli)

Önerilen eşikler:

Capability eval'ları: pass@3 >= 0.90
Regression eval'ları: yayın-kritik yollar için pass^3 = 1.00

Eval Anti-Kalıpları

Prompt'ları bilinen eval örneklerine overfitting yapmak
Sadece mutlu-yol çıktılarını ölçmek
Geçme oranlarını kovalamken maliyet ve gecikme kaymasını görmezden gelmek
Yayın kapılarında kararsız grader'lara izin vermek

Minimal Eval Artifact Düzeni

.claude/evals/<feature>.md tanımı
.claude/evals/<feature>.log çalıştırma geçmişi
docs/releases/<version>/eval-summary.md yayın snapshot'ı

Maintainer

affaan-m Core maintainer

Source details

Full Name: affaan-m/everything-claude-code
Branch: main
Path in repo: docs/tr/skills/eval-harness
License: MIT License
Topics: claude-code anthropic claude mcp ai-agents developer-tools llm productivity

Featured Tools

Join Our Newsletter

Stay updated with the latest AI tools, news, and offers by subscribing to our weekly newsletter.

Recommended Agent Skills

Expand your agent's capabilities with these related and highly-rated skills.

affaan-m/everything-claude-code

python-testing

Python testing best practices using pytest including fixtures, parametrization, mocking, coverage analysis, async testing, and test organization. Use when writing or improving Python tests.

132,726 19,206

Explore

affaan-m/everything-claude-code

golang-patterns

Go-specific design patterns and best practices including functional options, small interfaces, dependency injection, concurrency patterns, error handling, and package organization. Use when working with Go code to apply idiomatic Go patterns.

132,726 19,206

Explore

affaan-m/everything-claude-code

e2e-testing

Playwright E2E testing patterns, Page Object Model, configuration, CI/CD integration, artifact management, and flaky test strategies.

132,726 19,206

Explore

affaan-m/everything-claude-code

agentic-engineering

Operate as an agentic engineer using eval-first execution, decomposition, and cost-aware model routing. Use when AI agents perform most implementation work and humans enforce quality and risk controls.

132,726 19,206

Explore

affaan-m/everything-claude-code

api-design

REST API design patterns including resource naming, status codes, pagination, filtering, error responses, versioning, and rate limiting for production APIs.

132,726 19,206

Explore

affaan-m/everything-claude-code

python-patterns

Python-specific design patterns and best practices including protocols, dataclasses, context managers, decorators, async/await, type hints, and package organization. Use when working with Python code to apply Pythonic patterns.

132,726 19,206

Explore

Didn't find tool you were looking for?

Search AI Tools

Install this agent skill to your Project

SKILL.md

Eval Harness Skill

Ne Zaman Aktifleştirmeli

Felsefe

Eval Tipleri

Capability Eval'ları

Regression Eval'ları

Grader Tipleri

1. Code-Based Grader

2. Model-Based Grader

3. Human Grader

Metrikler

pass@k

pass^k

Eval İş Akışı

1. Tanımla (Kodlamadan Önce)

2. Uygula

3. Değerlendir

4. Rapor

Entegrasyon Kalıpları

İmplementasyondan Önce

İmplementasyon Sırasında

İmplementasyondan Sonra

Eval Depolama

En İyi Uygulamalar

Örnek: Kimlik Doğrulama Ekleme

Product Eval'ları (v1.8)

Grader Tipleri

pass@k Kılavuzu

Eval Anti-Kalıpları

Minimal Eval Artifact Düzeni

Recommended Agent Skills

python-testing

golang-patterns

e2e-testing

agentic-engineering

api-design

python-patterns