Hva er Constraint Decay?

Constraint Decay er et fenomen beskrevet i en 2026-studie (arXiv 2605.06445) der AI-agenter mister opptil 30 prosentpoeng i korrekthet når de opererer i produksjonsmiljøer med realistiske tekniske begrensninger — som databaselag, rammeverk og eksisterende kodestrukturer. I kontrollerte tester ser AI-en ut til å fungere. Under virkelige betingelser degraderer ytelsen dramatisk.

Hvorfor oppdages ikke AI-svikten i testing?

Standardtesting av AI-systemer skjer i isolerte miljøer uten de strukturelle begrensningene som finnes i produksjon — eksisterende databasemodeller, ORM-lag, rammeverkskonvensjoner. Studien fant at AI-agenter klarte seg godt i minimale rammeverk (Flask), men feilet i konvensjonstunge miljøer (FastAPI, Django). Testresultater fra demo-miljøet predikerer ikke påliteligheten i det virkelige systemet.

Hva har Cork Protocol med norske bedrifter å gjøre?

Cork Protocol-hacket (12M USD) er et ekstremt eksempel på hva som skjer når punkt-i-tid revisjoner erstatter løpende verifisering. Tre av fem revisjonsfirmaer fant null kritiske sårbarheter på et system som hadde en åpenbar tilgangskontrollfeil. Prinsippet gjelder i alle bransjer: engangsjekker av AI-systemer fanger ikke degradering over tid eller under reelle driftsbetingelser.

Hva bør norske bedrifter gjøre med AI-implementasjoner?

Tre tiltak: (1) Test AI-systemet under virkelige produksjonsbetingelser, ikke bare i demo-miljøet. (2) Sett opp løpende ytelseslogging — ikke bare om systemet svarer, men om det svarer riktig. (3) Vurder uavhengig verifikasjon for AI-systemer som håndterer kundekommunikasjon, rådgivning eller kritiske forretningsprosesser. Synlig Digitals AEO-verktøy inkluderer verifisering av at AI-kanalene faktisk fremstiller virksomheten din korrekt.

AI-agenter taper 30 pp i produksjon — og ingen oppdager det

Hva sier forskningen?

Studien «Constraint Decay: The Fragility of LLM Agents in Backend Code Generation» (Dente, Satriani, Papotti — arXiv 2605.06445) testet AI-agenter på 100 oppgaver spredt over åtte web-rammeverk. Metodikken var enkel og brutal: hold API-kontrakten identisk, men øk de strukturelle kravene gradvis fra rent grøntmarksoppdrag til realistiske produksjonsoppgaver med eksisterende databaselag, ORM-integrasjoner og rammeverkskonvensjoner.

Resultatet:

−30 pp

Fall i assertion pass rate fra demo til produksjon

→ 0 %

Svakere konfigurasjoner nærmer seg null under produksjonskrav

Rammeverk testet — store sprik mellom minimale og konvensjonstunge

Den viktigste enkeltfunnet: feilene skyldes primært datalags-defekter — feil i spørringskomposisjon og ORM runtime-brudd. AI-en klarer den funksjonelle logikken, men bryter mot det eksisterende systemets regler for hvordan data faktisk håndteres. I et demo-miljø finnes ikke disse reglene. I produksjon finnes de alltid.

Hva er «assertion pass rate»? Studien brukte end-to-end atferdstester kombinert med statisk analyse. «Assertion pass rate» er andelen tester der AI-en produserte kode som oppfylte alle krav — funksjonelt OG strukturelt. 30 pp fall betyr ikke at AI-en begynner å snakke tull. Det betyr at et system som bestod 8 av 10 tester i demo, bare består 5 av 10 i produksjon.

Rammeverket bestemmer mer enn modellen

Studien avdekket et mønster som burde bekymre alle som kjøper AI-agenter basert på benchmarks: ytelsen varierer dramatisk med rammeverket, ikke bare med modellen.

Rammeverk-type	Karakteristikk	AI-ytelse
Flask (Python)	Minimalt, eksplisitt — du skriver det meste selv	Relativt stabil
FastAPI / Django	Konvensjonstungt — mange implisitte regler	Betydelig degradering
Eksisterende kodebase	Full produksjonskontekst med historisk gjeld	Størst fall

De fleste norske bedrifter kjøper AI-agenter inn i det siste scenariet. Eksisterende systemer, eksisterende databaser, eksisterende kodekonvensjoner. Leverandørens benchmark ble kjørt i et ferskt demo-miljø. Gapet er strukturelt, ikke tilfeldig.

Cork Protocol: hva skjer når ingen sjekker løpende

Cork Protocol er et DeFi-protokoll støttet av a16z. I mai 2026 ble de hacket for 12 millioner dollar. Vektoren: en tilgangskontrollfeil i et sentralt smart contract-lag — en feil ingen av revisorene hadde funnet.

Og Cork hadde mange revisorer. Fem firmaer hadde gjennomgått systemet. Her er det som skjedde hos de to som stod i senterscenen:

Sherlock (12-dagers konkurranse, 39 sikkerhetsforskere): fant 10 kritiske sårbarheter
Cantina/Spearbit (22-dagers privat revisjon): fant 0 kritiske sårbarheter

Sherlock-CEO Jack Sanford gikk offentlig ut og stilte spørsmål om ansvarlighet. Cantina mangler commit-hasher fra sin revisjon. Spearbit har ikke publisert sin rapport. Hackerens on-chain meldinger pekte direkte på revisorenes manglende arbeid.

Det relevante poenget her er ikke krypto-drama. Det er dette: punkt-i-tid revisjoner av komplekse systemer fanger ikke alle feil. 22 dager med dedikerte sikkerhetsforskere fant ingenting i et system med en åpenbar tilgangskontrollfeil. Enten ble feilen introdusert etter revisjonen, eller revisjonen var utilstrekkelig. I begge tilfeller: løpende verifisering hadde endret utfallet.

Hva det betyr for din AI-implementasjon

Koblingen mellom Constraint Decay-studien og Cork Protocol-saken er den samme strukturelle svakheten: systemer som ser ut til å fungere, svikter under virkelige driftsbetingelser — og ingen oppdager det fordi ingen sjekker løpende.

For norske bedrifter som bruker AI i dag handler dette om tre konkrete risikoer:

1. Kundevendte AI-chatboter gir feil svar

En AI-assistent som ble testet i demo og klarte seg godt, opererer nå i et produksjonsmiljø med ekte kundedata, reelle bakkendsystemer og faktisk bedriftsinformasjon. Studien indikerer at ytelsen degraderer systematisk. Har du sjekket om den fortsatt gir riktige svar om produkter, priser og rutiner? Ikke i demo — i produksjon, mot de spørsmålene kundene faktisk stiller?

2. AI bruker feil informasjon om bedriften din

AI-søkemotorer som ChatGPT og Perplexity henter informasjon om virksomheten din fra nettet. Hvis nettsiden din mangler strukturerte data, er outdated, eller motsigende — vil AI-en presentere feil bilde. Det er ikke en engangsfeil: det er en løpende feilinformasjonsjobb mot alle som spør om bedriften din i en AI-assistent.

3. Engangsjekker hjelper ikke mot løpende degradering

Cork Protocol-saken viser at en revisjon — uansett hvor grundig — bare sier noe om tilstanden på ett tidspunkt. Systemer endres. Produksjonsmiljøer evolusjonerer. AI-modeller oppdateres. En SEO-audit fra 2024 hjelper ikke mot AI Mode i 2026. En AI-sjekk fra januar hjelper ikke mot det Google lærte i april.

Påliteligheten må verifiseres, ikke antas

Den praktiske konklusjonen fra begge disse tilfellene er den samme: det er ikke nok å implementere et AI-system og anta at det fungerer. Det må verifiseres løpende, mot virkelige produksjonsbetingelser, og med en standard som faktisk fanger feil.

For AEO — synlighet i AI-søk — betyr det å sjekke ikke bare om bedriften din er synlig, men om den er synlig riktig. At AI-en refererer til faktiske priser, faktiske tjenester og faktiske kontaktdetaljer. At strukturerte data stemmer med innholdet. At endringer i bedriften faktisk reflekteres i det AI-systemene sier om deg.

Synlig Digitals gratis AEO-sjekk er et startpunkt: den analyserer nettstedet ditt mot de kriteriene ChatGPT, Perplexity og Google AI bruker for å velge og verifisere kilder. Du ser om du har synlighetsmangler. Du ser om strukturerte data stemmer. Sjekk din AI-synlighet nå — 30 sekunder, ingen registrering.

Hva du kan gjøre nå

Test AI-systemer under produksjonsbetingelser. Ikke i demo-miljøet. Bruk virkelige kundeforespørsler og verifiser at svarene er korrekte mot det systemet faktisk vet.
Sett opp løpende overvåkning. Logg ikke bare om AI-en svarer — logg om den svarer riktig. Definer «riktig» konkret: riktig pris, riktig åpningstid, riktig prosedyre.
Sjekk hva AI-søkemotorer sier om deg. Spør ChatGPT om bedriften din. Spør Perplexity. Sjekk om informasjonen er korrekt — og om strukturerte data på nettstedet støtter det riktige svaret.
Ikke regn med at engangsjekker holder. Plan for revurdering etter hvert større system-skifte: ny AI-modell, nytt rammeverk, ny versjon av nettstedet.

Håkon Åmdal driver Synlig Digital fra Stavanger. Vi hjelper norske bedrifter bli synlige der kundene spør — i ChatGPT, Perplexity, Google AI og andre AI-assistenter.

Kilder

Dente, Satriani, Papotti (2026): «Constraint Decay: The Fragility of LLM Agents in Backend Code Generation» — arXiv:2605.06445
Protos.com (mai 2026): «'Sherlock missed it': Cork hacker slams audit firms in on-chain messages»
Jack Sanford / Sherlock (X, mai 2026): «How Responsible are Spearbit and Cantina for Cork's $12M Hack?»
Cork Protocol (2025–2026): Post-mortem og «Lessons Learned» — cork.tech/blog

AI-agenter taper 30 pp i produksjon — og ingen oppdager det

Hvor synlig er din bedrift i AI-søk?

Hva sier forskningen?

Rammeverket bestemmer mer enn modellen

Cork Protocol: hva skjer når ingen sjekker løpende

Hva det betyr for din AI-implementasjon

1. Kundevendte AI-chatboter gir feil svar

2. AI bruker feil informasjon om bedriften din

3. Engangsjekker hjelper ikke mot løpende degradering

Påliteligheten må verifiseres, ikke antas

Hva du kan gjøre nå

Kilder

Hvor synlig er din bedrift i AI-søk?