Hva sier forskningen?

Studien «Constraint Decay: The Fragility of LLM Agents in Backend Code Generation» (Dente, Satriani, Papotti — arXiv 2605.06445) testet AI-agenter på 100 oppgaver spredt over åtte web-rammeverk. Metodikken var enkel og brutal: hold API-kontrakten identisk, men øk de strukturelle kravene gradvis fra rent grøntmarksoppdrag til realistiske produksjonsoppgaver med eksisterende databaselag, ORM-integrasjoner og rammeverkskonvensjoner.

Resultatet:

−30 pp
Fall i assertion pass rate fra demo til produksjon
→ 0 %
Svakere konfigurasjoner nærmer seg null under produksjonskrav
8
Rammeverk testet — store sprik mellom minimale og konvensjonstunge

Den viktigste enkeltfunnet: feilene skyldes primært datalags-defekter — feil i spørringskomposisjon og ORM runtime-brudd. AI-en klarer den funksjonelle logikken, men bryter mot det eksisterende systemets regler for hvordan data faktisk håndteres. I et demo-miljø finnes ikke disse reglene. I produksjon finnes de alltid.

Hva er «assertion pass rate»? Studien brukte end-to-end atferdstester kombinert med statisk analyse. «Assertion pass rate» er andelen tester der AI-en produserte kode som oppfylte alle krav — funksjonelt OG strukturelt. 30 pp fall betyr ikke at AI-en begynner å snakke tull. Det betyr at et system som bestod 8 av 10 tester i demo, bare består 5 av 10 i produksjon.

Rammeverket bestemmer mer enn modellen

Studien avdekket et mønster som burde bekymre alle som kjøper AI-agenter basert på benchmarks: ytelsen varierer dramatisk med rammeverket, ikke bare med modellen.

Rammeverk-type Karakteristikk AI-ytelse
Flask (Python) Minimalt, eksplisitt — du skriver det meste selv Relativt stabil
FastAPI / Django Konvensjonstungt — mange implisitte regler Betydelig degradering
Eksisterende kodebase Full produksjonskontekst med historisk gjeld Størst fall

De fleste norske bedrifter kjøper AI-agenter inn i det siste scenariet. Eksisterende systemer, eksisterende databaser, eksisterende kodekonvensjoner. Leverandørens benchmark ble kjørt i et ferskt demo-miljø. Gapet er strukturelt, ikke tilfeldig.

Cork Protocol: hva skjer når ingen sjekker løpende

Cork Protocol er et DeFi-protokoll støttet av a16z. I mai 2026 ble de hacket for 12 millioner dollar. Vektoren: en tilgangskontrollfeil i et sentralt smart contract-lag — en feil ingen av revisorene hadde funnet.

Og Cork hadde mange revisorer. Fem firmaer hadde gjennomgått systemet. Her er det som skjedde hos de to som stod i senterscenen:

Sherlock-CEO Jack Sanford gikk offentlig ut og stilte spørsmål om ansvarlighet. Cantina mangler commit-hasher fra sin revisjon. Spearbit har ikke publisert sin rapport. Hackerens on-chain meldinger pekte direkte på revisorenes manglende arbeid.

Det relevante poenget her er ikke krypto-drama. Det er dette: punkt-i-tid revisjoner av komplekse systemer fanger ikke alle feil. 22 dager med dedikerte sikkerhetsforskere fant ingenting i et system med en åpenbar tilgangskontrollfeil. Enten ble feilen introdusert etter revisjonen, eller revisjonen var utilstrekkelig. I begge tilfeller: løpende verifisering hadde endret utfallet.

Hva det betyr for din AI-implementasjon

Koblingen mellom Constraint Decay-studien og Cork Protocol-saken er den samme strukturelle svakheten: systemer som ser ut til å fungere, svikter under virkelige driftsbetingelser — og ingen oppdager det fordi ingen sjekker løpende.

For norske bedrifter som bruker AI i dag handler dette om tre konkrete risikoer:

1. Kundevendte AI-chatboter gir feil svar

En AI-assistent som ble testet i demo og klarte seg godt, opererer nå i et produksjonsmiljø med ekte kundedata, reelle bakkendsystemer og faktisk bedriftsinformasjon. Studien indikerer at ytelsen degraderer systematisk. Har du sjekket om den fortsatt gir riktige svar om produkter, priser og rutiner? Ikke i demo — i produksjon, mot de spørsmålene kundene faktisk stiller?

2. AI bruker feil informasjon om bedriften din

AI-søkemotorer som ChatGPT og Perplexity henter informasjon om virksomheten din fra nettet. Hvis nettsiden din mangler strukturerte data, er outdated, eller motsigende — vil AI-en presentere feil bilde. Det er ikke en engangsfeil: det er en løpende feilinformasjonsjobb mot alle som spør om bedriften din i en AI-assistent.

3. Engangsjekker hjelper ikke mot løpende degradering

Cork Protocol-saken viser at en revisjon — uansett hvor grundig — bare sier noe om tilstanden på ett tidspunkt. Systemer endres. Produksjonsmiljøer evolusjonerer. AI-modeller oppdateres. En SEO-audit fra 2024 hjelper ikke mot AI Mode i 2026. En AI-sjekk fra januar hjelper ikke mot det Google lærte i april.

Påliteligheten må verifiseres, ikke antas

Den praktiske konklusjonen fra begge disse tilfellene er den samme: det er ikke nok å implementere et AI-system og anta at det fungerer. Det må verifiseres løpende, mot virkelige produksjonsbetingelser, og med en standard som faktisk fanger feil.

For AEO — synlighet i AI-søk — betyr det å sjekke ikke bare om bedriften din er synlig, men om den er synlig riktig. At AI-en refererer til faktiske priser, faktiske tjenester og faktiske kontaktdetaljer. At strukturerte data stemmer med innholdet. At endringer i bedriften faktisk reflekteres i det AI-systemene sier om deg.

Synlig Digitals gratis AEO-sjekk er et startpunkt: den analyserer nettstedet ditt mot de kriteriene ChatGPT, Perplexity og Google AI bruker for å velge og verifisere kilder. Du ser om du har synlighetsmangler. Du ser om strukturerte data stemmer. Sjekk din AI-synlighet nå — 30 sekunder, ingen registrering.

Hva du kan gjøre nå


Håkon Åmdal driver Synlig Digital fra Stavanger. Vi hjelper norske bedrifter bli synlige der kundene spør — i ChatGPT, Perplexity, Google AI og andre AI-assistenter.

Kilder