Agent skill

plan-mode-advanced

Create and execute advanced execution plans for complex AI model development incorporating 2024-2026 cutting-edge techniques (DeepSeek GRPO, manifold-constrained architectures, geometric scaling). Use when planning large-scale model training, architecture optimization, or multi-stage development workflows requiring state-of-the-art methodologies.

Stars 163
Forks 31

Install this agent skill to your Project

npx add-skill https://github.com/majiayu000/claude-skill-registry/tree/main/skills/data/plan-mode-advanced

SKILL.md

高度なPlanモード: 2024-2026最先端手法統合

概要

このスキルは、2024-2026年の最先端AI手法(DeepSeek GRPO、mHC多様体アーキテクチャ、幾何学的スケーリング)を統合した高度な実行計画を作成・実行します。複雑なAIモデル開発において、体系的かつ効率的な計画立案と実行を支援します。

統合手法

1. DeepSeek-R1 GRPO (Group Relative Policy Optimization)

論文: "DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning" (2025)

適用:

  • 純粋RLベースの推論能力育成
  • 人間の推論トレースなしで創発的推論行動を実現
  • マルチステージ訓練: Cold-start SFT → GRPO → Rejection Sampling → All-scenarios RL

2. mHC (Manifold-Constrained Hyper-Connections)

論文: "mHC: Manifold-Constrained Hyper-Connections" (2025)

適用:

  • Birkhoff多様体上の二重確率行列制約
  • 残差ストリームの安定性確保
  • Sinkhorn-Knopp正規化による恒等写像保存

3. 幾何学的スケーリングと動的スケーリング

論文: "Geometric and Dynamic Scaling in Deep Transformers" (2026)

適用:

  • 意味的多様体からのドリフト防止
  • 非単調デルタ学習による冗長特徴消去
  • 多様体制約付き残差更新

計画作成ワークフロー

Phase 1: 要件分析と手法選定

yaml
計画要件分析:
  目標モデル規模: [7B, 13B, 27B, 70B]
  対象タスク: [推論, 知識, コード生成, 多言語]
  制約条件: [計算リソース, 時間, データ可用性]
  最先端手法統合: [GRPO, mHC, 幾何学的スケーリング]

Phase 2: アーキテクチャ設計計画

mHC統合アーキテクチャ

python
class MHCTransformerBlock(nn.Module):
    def __init__(self, config):
        super().__init__()
        # 標準Transformerブロック
        self.attention = MultiHeadAttention(config)
        self.mlp = MLP(config)

        # mHC拡張
        self.hyper_connections = HyperConnections(
            num_streams=config.num_streams,
            manifold_constraint='birkhoff'
        )

        # 幾何学的スケーリング
        self.geometric_scaler = GeometricScaler(
            manifold_dim=config.manifold_dim,
            delta_learning=True
        )

GRPO訓練計画

python
class GRPOTrainingPlan:
    def __init__(self):
        self.stages = [
            'cold_start_sft',      # 高品質CoT例でのSFT
            'reasoning_rl',        # GRPOによる推論RL
            'rejection_sampling',  # 高確信軌道のサンプリング
            'all_scenarios_rl'     # 全シナリオRL統合
        ]

    def execute_stage(self, stage_name, model, dataset):
        if stage_name == 'reasoning_rl':
            return self._execute_grpo(model, dataset)

Phase 3: 訓練戦略計画

マルチステージ訓練パイプライン

yaml
訓練パイプライン:
  stage_1:
    name: "Cold-start SFT"
    technique: "Supervised Fine-tuning"
    data: "High-quality CoT examples"
    duration: "2-4 hours"
    metrics: ["Loss convergence", "CoT quality"]

  stage_2:
    name: "GRPO Reasoning RL"
    technique: "Group Relative Policy Optimization"
    reward: ["Correctness", "Format compliance", "Efficiency"]
    duration: "8-24 hours"
    metrics: ["Reasoning accuracy", "Emergent behaviors"]

  stage_3:
    name: "Rejection Sampling + SFT"
    technique: "Trajectory filtering"
    data: "High-confidence RL trajectories"
    duration: "4-8 hours"
    metrics: ["Trajectory quality", "Diversity preservation"]

  stage_4:
    name: "All-scenarios RL"
    technique: "Multi-objective RL"
    reward: ["Reasoning", "Helpfulness", "Safety", "Consistency"]
    duration: "12-48 hours"
    metrics: ["General capability", "Safety alignment"]

Phase 4: 評価と検証計画

包括的評価フレームワーク

python
class AdvancedEvaluationFramework:
    def __init__(self):
        self.benchmarks = {
            'reasoning': ['GSM8K', 'MATH', 'BBH', 'DROP'],
            'knowledge': ['MMLU', 'TriviaQA', 'NaturalQuestions'],
            'coding': ['HumanEval', 'MBPP', 'CodeContests'],
            'multilingual': ['XLSum', 'TyDiQA', 'MGSM']
        }

    def evaluate_model(self, model, stage_name):
        results = {}
        for category, benchmarks in self.benchmarks.items():
            results[category] = self._evaluate_category(model, benchmarks)

        # 統計的分析
        self._perform_statistical_analysis(results, stage_name)
        return results

実行管理

リアルタイム進捗監視

python
class AdvancedProgressMonitor:
    def __init__(self, plan_id):
        self.plan_id = plan_id
        self.start_time = time.time()
        self.stage_progress = {}
        self.resource_usage = []

    def update_progress(self, stage, progress, metrics=None):
        """進捗更新"""
        self.stage_progress[stage] = {
            'progress': progress,
            'metrics': metrics or {},
            'timestamp': time.time()
        }

        # リソース使用量監視
        self._monitor_resources()

        # ETA計算
        self._calculate_eta()

        # ログ出力
        self._log_progress()

    def _monitor_resources(self):
        """リソース監視"""
        import psutil
        import GPUtil

        cpu_usage = psutil.cpu_percent()
        memory = psutil.virtual_memory()
        gpu_usage = GPUtil.getGPUs()[0].load if GPUtil.getGPUs() else 0

        self.resource_usage.append({
            'timestamp': time.time(),
            'cpu': cpu_usage,
            'memory_percent': memory.percent,
            'gpu': gpu_usage
        })

エラーハンドリングと回復

python
class PlanErrorHandler:
    def __init__(self):
        self.error_patterns = {
            'gradient_explosion': self._handle_gradient_explosion,
            'nan_loss': self._handle_nan_loss,
            'memory_oom': self._handle_memory_oom,
            'convergence_failure': self._handle_convergence_failure
        }

    def handle_error(self, error_type, context):
        """エラーハンドリング"""
        if error_type in self.error_patterns:
            return self.error_patterns[error_type](context)
        else:
            return self._handle_unknown_error(error_type, context)

    def _handle_gradient_explosion(self, context):
        """勾配爆発処理"""
        return {
            'action': 'gradient_clipping',
            'parameters': {'clip_value': 1.0},
            'recovery_strategy': 'resume_with_clipping'
        }

高度な最適化手法

計算効率最適化

選択的再計算

python
class SelectiveRecompute:
    def __init__(self, memory_budget_gb=24):
        self.memory_budget = memory_budget_gb
        self.activation_cache = {}

    def should_recompute(self, layer_idx, activation_size):
        """再計算判定"""
        current_memory = self._estimate_memory_usage()
        projected_memory = current_memory + activation_size

        if projected_memory > self.memory_budget:
            return True
        return False

    def recompute_activation(self, layer_idx, inputs):
        """活性化再計算"""
        # 順伝播再実行でメモリ節約
        return self._forward_pass(layer_idx, inputs)

通信/計算重複

python
class DualPipeScheduler:
    def __init__(self, num_gpus=8):
        self.num_gpus = num_gpus
        self.communication_streams = []
        self.computation_streams = []

    def schedule_operations(self, operations):
        """操作スケジューリング"""
        # 通信と計算の重複実行
        communication_ops = [op for op in operations if op.type == 'communication']
        computation_ops = [op for op in operations if op.type == 'computation']

        # パイプライン実行
        self._pipeline_execute(communication_ops, computation_ops)

安定性最適化

多様体制約適用

python
class ManifoldConstraint:
    def __init__(self, manifold_type='birkhoff'):
        self.manifold_type = manifold_type

    def project_to_manifold(self, matrix):
        """多様体への射影"""
        if self.manifold_type == 'birkhoff':
            return self._sinkhorn_knopp_projection(matrix)
        elif self.manifold_type == 'stiefel':
            return self._stiefel_projection(matrix)

    def _sinkhorn_knopp_projection(self, matrix):
        """Sinkhorn-Knoppアルゴリズム"""
        # 二重確率行列への正規化
        # 行和を1に
        matrix = matrix / matrix.sum(dim=1, keepdim=True)
        # 列和を1に
        matrix = matrix / matrix.sum(dim=0, keepdim=True)
        return matrix

計画実行ワークフロー

1. 計画初期化

bash
# 高度な計画作成
python scripts/plan_mode/create_advanced_plan.py \
    --model-scale 27B \
    --target-tasks reasoning,knowledge,coding \
    --techniques grpo,mhc,geometric_scaling \
    --compute-budget 8xH100 \
    --timeline 7days

2. リソース割り当て

bash
# リソース最適化
python scripts/plan_mode/optimize_resources.py \
    --plan-id $PLAN_ID \
    --available-gpus 8 \
    --memory-budget 128GB \
    --network-bandwidth 100Gbps

3. 実行監視

bash
# リアルタイム監視
python scripts/plan_mode/monitor_execution.py \
    --plan-id $PLAN_ID \
    --update-interval 30 \
    --alert-thresholds "gradient_norm:10,memory_usage:90"

4. 適応的最適化

bash
# 動的最適化
python scripts/plan_mode/adaptive_optimization.py \
    --plan-id $PLAN_ID \
    --performance-metrics loss,throughput,accuracy \
    --optimization-targets convergence_speed,memory_efficiency

成功指標

品質指標

  • 収束速度: 目標損失到達までの時間
  • 安定性: 訓練中のクラッシュ/不安定発生率 < 5%
  • 効率性: 計算リソース使用率 > 85%
  • 性能向上: ベースライン比 15-25%性能向上

革新性指標

  • 手法統合度: 最先端手法の適切な組み合わせ
  • スケーラビリティ: モデル規模に対する線形スケーリング
  • 再現性: 実験結果の再現性 > 95%

トラブルシューティング

一般的な問題

GRPO訓練の不安定性

python
# 解決策: 報酬設計の改善
rewards = {
    'correctness': 1.0,
    'format_compliance': 0.3,
    'efficiency': 0.2,
    'kl_penalty': -0.1
}

mHCの収束問題

python
# 解決策: 学習率調整
optimizer_config = {
    'lr': 1e-4,
    'manifold_lr': 1e-3,  # 多様体パラメータ用
    'projection_frequency': 10  # 射影頻度
}

幾何学的スケーリングの発散

python
# 解決策: デルタ学習の導入
geometric_config = {
    'delta_learning': True,
    'manifold_projection': 'stiefel',
    'stability_threshold': 0.1
}

拡張性

新手法統合

python
def integrate_new_technique(self, technique_name, config):
    """新規手法統合"""
    if technique_name == 'new_rl_method':
        self.rl_methods[technique_name] = config
    elif technique_name == 'new_architecture':
        self.architectures[technique_name] = config
    elif technique_name == 'new_optimization':
        self.optimizers[technique_name] = config

カスタム評価指標

python
def add_custom_metric(self, metric_name, evaluation_fn):
    """カスタム評価指標追加"""
    self.custom_metrics[metric_name] = evaluation_fn
    self.evaluation_framework.register_metric(metric_name, evaluation_fn)

結論

この高度なPlanモードは、2024-2026年の最先端AI手法を統合し、複雑なAIモデル開発を体系的かつ効率的に進めるための包括的なフレームワークを提供します。DeepSeek-R1のGRPO、mHCの多様体制約、幾何学的スケーリングを適切に組み合わせることで、高性能かつ安定したAIモデルの開発を実現します。

最先端AI開発の新時代へ! 🚀🧠⚡

Expand your agent's capabilities with these related and highly-rated skills.

Didn't find tool you were looking for?

Be as detailed as possible for better results