HyperAgent Fleet-Dashboard mit Skill-Cards und Eval-Rubrics

    HyperAgent Field Notes #1: Setup, erster Skill und die Lektion aus Tag 1

    Till FreitagTill Freitag26. April 20263 min read
    Till Freitag

    TL;DR: „Setup ist in 15 Minuten erledigt. Der erste Skill sollte etwas sein, das du heute schon 5× pro Woche manuell machst – nicht das größte Träumchen. Und: das Eval-Rubric vor dem ersten Run anlegen, sonst optimierst du blind."

    — Till Freitag

    Field Notes Serie — Wir sind Teil der Closed Beta von HyperAgent. In dieser Reihe teilen wir, was wir lernen, was funktioniert und was nicht. Heute: Tag 1.

    In 30 Sekunden

    • Onboarding läuft schnell: Workspace, erstes Modell-Routing, Slack-Integration ≈ 15 Minuten.
    • Erster Skill ≠ erstes Wunschprojekt. Wir starten mit etwas Kleinem, Repetitivem, mit klarer "Definition of Done".
    • Eval-Rubric VOR dem ersten Run anlegen. Sonst kannst du Verbesserung später nicht messen.
    • Größter mentaler Shift: Du baust keinen Bot, du baust eine Rolle mit Stellenprofil.

    Was wir gemacht haben

    Wir hatten zwei Stunden Zeit für eine erste Session. Plan: Workspace einrichten, einen produktiven Use Case identifizieren, ersten Skill bauen, ersten Run produzieren.

    1. Setup (≈ 15 Min)

    • Workspace anlegen, Team einladen
    • Default-Modell wählen (wir starten mit Claude für Reasoning, GPT-4-class für Tool-Calls)
    • Slack-Workspace verbinden – wir wollen Trigger von Anfang an
    • Ein Test-Run gegen einen Browse-Task: läuft, gibt sauberen Trace zurück

    Bis hier nichts Spannendes. Die Plattform fühlt sich an wie eine sehr gut gemachte Studio-IDE für Agenten.

    2. Use-Case-Auswahl: das war die wichtige Entscheidung

    Unser erster Reflex: "Lass uns einen Sales-Research-Agenten bauen!" – also den ambitionierten Use Case, der einen Wow-Effekt erzeugt.

    Wir haben ihn verworfen. Stattdessen haben wir gefragt:

    Welche Aufgabe macht jemand in unserem Team mehrmals pro Woche manuell, mit klarem Output-Format und wenig Kontextabhängigkeit?

    Antwort: Wettbewerbs-Watchlist-Update. Jeden Montag schauen wir uns 8 Konkurrenz-Domains an, prüfen Blog/Pricing/Changelog auf Veränderungen seit der letzten Woche, fassen das in eine kurze Slack-Nachricht.

    Klein. Klar. Wiederholt. Perfekt für einen ersten Skill.

    3. Der erste Skill

    Wir haben einen Skill competitor-watchlist-scan definiert. Inhalt grob:

    • Eingabe: Liste von URLs + letzter Scan-Timestamp
    • Schritte: jede URL fetchen, gegen Snapshot vergleichen, "echte" Änderungen vs. dynamische Inhalte unterscheiden
    • Ausgabe: strukturierte Liste { domain, change_type, summary, evidence_url }
    • Definition of Done: Slack-Post mit max. 5 Bullet Points, jeder mit Link

    Das Schreiben des Skills hat länger gedauert als erwartet (≈ 30 Min) – nicht wegen der Plattform, sondern weil wir merken: wir hatten den Prozess in unserem Kopf nie sauber dokumentiert. Genau das ist der Wert. HyperAgent zwingt dich, dein implizites Prozesswissen zu codifizieren.

    4. Eval-Rubric vor dem ersten Run

    Hier hätten wir fast einen Fehler gemacht: erst mal laufen lassen, dann gucken.

    Stattdessen haben wir ein simples Rubric definiert:

    Kriterium Gewicht
    Werden alle 8 Domains besucht? 20 %
    Werden tatsächliche Änderungen erkannt (kein False Positive)? 40 %
    Sind Quellen verlinkt und korrekt? 25 %
    Ist die Zusammenfassung in unserer Tonalität? 15 %

    LLM-as-Judge bewertet jeden Run gegen diese Rubric. Ergebnis: Wir können von Lauf zu Lauf objektiv messen, ob ein Skill-Update besser oder schlechter ist – statt zu raten.

    5. Der erste echte Run

    Erster Run: 78 % Score. Drei False Positives (CSS-Änderungen wurden als "Pricing-Update" gewertet), eine Domain wurde durch Cookie-Banner blockiert.

    Beides klare Hinweise, was im Skill verbessert werden muss. Genau das ist der Loop, den wir uns gewünscht haben.

    Drei Erkenntnisse aus Tag 1

    1. Skills sind kein "fancy Prompt", sondern ein Prozessdokument

    Wir haben unterschätzt, wie viel explizite Prozessbeschreibung ein guter Skill braucht. Die gute Nachricht: was du einmal aufschreibst, läuft danach 1.000 Mal automatisch ab. Skills sind Onboarding-Dokumente für Maschinen.

    2. Eval first – sonst optimierst du blind

    Ohne Rubric weißt du nach drei Runs nicht, ob du besser oder schlechter geworden bist. Mit Rubric siehst du Trends. Klingt banal, ist aber der größte Gamechanger.

    3. Klein anfangen war richtig

    Ein "kleiner" Skill, der jede Woche zuverlässig läuft, ist mehr wert als ein "großer" Skill, der einmal beeindruckt und dann nicht mehr läuft. Erst Konsistenz, dann Komplexität.

    Was als Nächstes kommt

    In Field Notes #2 geht's darum, wie aus diesem Skill eine deploybare Rolle wird – mit Slack-Trigger, Budget-Limit und Berechtigungs-Scope. In Field Notes #3 orchestrieren wir dann mehrere Rollen als Fleet mit Hand-off-Verträgen und Concurrency-Limits.

    Field Notes #2: Vom Skill zur deploybaren RolleField Notes #3: Von der Rolle zur FleetHyperAgent Tool-ÜbersichtHyperAgent Vollständiges ReviewDie 5 Bausteine eines KI-AgentenAgentic Engineering – wie wir Teams begleiten

    TeilenLinkedInWhatsAppE-Mail

    Related Articles

    HyperAgent Rollen-Container mit Slack-Trigger, Budget-Gauge und Permission-Shield
    April 27, 20264 min

    HyperAgent Field Notes #2: Vom Skill zur deploybaren Rolle

    Aus dem Watchlist-Skill aus Field Notes #1 wird jetzt eine echte Rolle: mit Slack-Trigger, Budget-Limit und Berechtigung…

    Read more
    HyperAgent Fleet aus mehreren orchestrierten Agent-Rollen mit zentraler Koordination
    April 26, 20266 min

    HyperAgent Field Notes #3: Von der einzelnen Rolle zur Fleet

    Aus einer produktiven Rolle werden drei. Und plötzlich ist die spannende Frage nicht mehr „funktioniert die Rolle?", son…

    Read more
    Wettbewerbslandschaft der Agent-Plattformen mit HyperAgent im Zentrum und Globster, Manus, Lindy und monday agent labs als MitspielerDeep Dive
    April 27, 202613 min

    HyperAgent Competitors 2026: Wer spielt in derselben Liga – und warum Globster verdächtig ähnlich aussieht

    HyperAgent ist nicht alleine. Globster sieht im Interface verdächtig ähnlich aus, Manus geht den autonomen Solo-Weg, Lin…

    Read more
    HyperAgent AI Agent Fleet Management Dashboard mit autonomen Agenten
    March 10, 20264 min

    HyperAgent Review 2026: Die Agent-Plattform für Teams, die KI skalieren wollen

    HyperAgent verspricht die komplette Plattform für AGI-level Agents – Skills, Fleet Management, A/B-Testing. Wie schlägt …

    Read more
    Gumloop Review 2026: KI-Agenten und Workflows ohne Code
    March 13, 20264 min

    Gumloop Review 2026: KI-Agenten und Workflows ohne Code

    Gumloop kombiniert KI-Agenten mit visueller Workflow-Automatisierung – ganz ohne Code. Was die Plattform kann, was sie k…

    Read more
    Architektur-Diagramm der 5 Bausteine eines KI-Agenten: Runtime, Channels, Memory, Tools und Self-Scheduling
    March 10, 20265 min

    Die 5 Bausteine eines KI-Agenten – Was wirklich unter der Haube steckt

    Anthropic, AWS und Google haben ihre Agent-Frameworks veröffentlicht. Aber was braucht ein KI-Agent wirklich? 5 Baustein…

    Read more
    Illustration zur Verschmelzung von Marketing und Software-Engineering mit Git-Versionskontrolle
    March 10, 20265 min

    Git für Marketing-Teams – Warum euer AI-Stack Versionskontrolle braucht

    Euer Marketing-Team nutzt KI-Agenten, Prompts und Automatisierungen? Dann braucht ihr Git. Ein Praxis-Guide für den Umst…

    Read more
    Autonomer KI-Agent Manus AI orchestriert mehrere Aufgaben gleichzeitig
    March 7, 20264 min

    Manus AI Review 2026: Was der autonome KI-Agent wirklich kann – und wo die Grenzen liegen

    Manus AI verspricht autonomes Arbeiten ohne Babysitting – Code schreiben, Web-Recherche, Datenanalyse. Wir haben den KI-…

    Read more
    KI-Agenten-Ökosystem mit vernetzten Knoten und holographischer Gehirn-Visualisierung
    March 7, 20264 min

    Persönliche KI-Assistenten 2026 – Marktüberblick, Frameworks & was wirklich funktioniert

    Von Manus AI über Lindy bis Viktor – der Markt für persönliche KI-Agenten explodiert. Wir ordnen das Ökosystem in drei K…

    Read more