Skip to content
Agent Verification·5 min·עברית

רשימת בדיקה לאימות סוכנים

צ׳קליסט קצר שמגדיר ראיות סיום לפני שנותנים לסוכן לעבוד לבד: טסטים, בילד, צילום מסך וסוכן ביקורת.

רשימת בדיקה לאימות סוכנים

מה מקבלים

רשימת בדיקה שמכריחה כל סוכן להחזיר ראיה במקום סיכום יפה

למי זה מתאים

למפתחים, מייסדים ומפעילים שמריצים סוכנים על קוד, ממשק, דאטה או תוכן ורוצים פחות ביטחון שקרי.

1. מה מגדירים לפני המשימה

אוטונומיה לא מתחילה בהרשאה. היא מתחילה בהגדרת סיום שאפשר לבדוק.

  • מה המשימה אמורה לשנות.
  • מה אסור לה לשנות.
  • איזו ראיה מוכיחה שהמשימה הסתיימה.
  • מי או מה בודק את הראיה.
  • מה קורה כשהבדיקה נכשלת.

2. ארבע ראיות בסיסיות

לא כל משימה צריכה אותה בדיקה. תבחר ראיה לפי הסיכון.

  • קוד: טסט ממוקד, typecheck, lint, או בילד שעובר.
  • ממשק: צילום מסך לפני ואחרי, במובייל ובדסקטופ.
  • דאטה: שאילתה אחת שמחזירה מספר צפוי או רשומה לדוגמה.
  • תוכן: בדיקת כפילות, CTA לא מתנגש, וקישור חי אם מבטיחים נכס.

3. סוכן ביקורת

אם הסוכן שבנה גם מאשר, קיבלת אותה הטיה פעמיים. תן לסוכן שני לקרוא בלבד.

  • הרשאות קריאה בלבד.
  • מטרה: למצוא בעיה, לא לתקן.
  • פלט: בעיות עם קובץ, שורה, צילום או בדיקה.
  • בלי שינוי קוד ובלי פעולה חיצונית.

4. פרומפט להדבקה

תיבה להעתקה
Before you say done, show proof.

Return:
1. Files changed
2. Tests or checks run
3. Evidence link or screenshot
4. Risks left
5. What you did not verify

If proof is missing, say not done.

5. מה עושים כשהבדיקה נכשלת

  • לא מריצים שוב את אותה בקשה בלי שינוי.
  • מבודדים את הבעיה: קוד, ממשק, דאטה או תוכן.
  • מצמצמים הרשאות עד שיש ראיה קטנה שעובדת.
  • אחרי שני ניסיונות כושלים, פותחים ביקורת או חוזרים לאדם.

איך להשתמש בזה עכשיו

סוכן לא מסיים כשהוא אומר "סיימתי". סוכן מסיים כשיש ראיה שאפשר לבדוק.