Language models don’t just make mistakes—they fabricate reality with complete confidence. An AI agent might claim it created database records that don’t exist, Language models don’t just make mistakes—they fabricate reality with complete confidence. An AI agent might claim it created database records that don’t exist,

Auditing LLM Behavior: Can We Test for Hallucinations? Expert Insight by Dmytro Kyiashko, AI-Oriented Software Developer in Test

Language models don’t just make mistakes—they fabricate reality with complete confidence. An AI agent might claim it created database records that don’t exist, or insist it performed actions it never attempted. For teams deploying these systems in production, that distinction determines how you fix the problem.

Dmytro Kyiashko specializes in testing AI systems. His work focuses on one question: how do you systematically catch when a model lies?

The Problem With Testing Confident Nonsense

Traditional software fails predictably. A broken function returns an error. A misconfigured API provides a deterministic failure signal—typically a standard HTTP status code and a readable error message explaining what went wrong.

Language models break differently. They’ll report completing tasks they never started, retrieve information from databases they never queried, and describe actions that exist only in their training data. The responses look correct. The content is fabricated.

“Every AI agent operates according to instructions prepared by engineers,” Kyiashko explains. “We know exactly what our agent can and cannot do.” That knowledge becomes the foundation for distinguishing hallucinations from errors.

If an agent trained to query a database fails silently, that’s a bug. But if it returns detailed query results without touching the database? That’s a hallucination. The model invented plausible output based on training patterns.

Validation Against Ground Truth

Kyiashko’s approach centers on verification against actual system state. When an agent claims it created records, his tests check if those records exist. The agent’s response doesn’t matter if the system contradicts it.

“I typically use different types of negative tests—both unit and integration—to check for LLM hallucinations,” he notes. These tests deliberately request actions the agent lacks permission to perform, then validate the agent doesn’t falsely confirm success and the system state remains unchanged.

One technique tests against known constraints. An agent without database write permissions gets prompted to create records. The test validates no unauthorized data appeared and the response doesn’t claim success.

The most effective method uses production data. “I use the history of customer conversations, convert everything to JSON format, and run my tests using this JSON file.” Each conversation becomes a test case analyzing whether agents made claims contradicting system logs.

This catches patterns synthetic tests miss. Real users create conditions exposing edge cases. Production logs reveal where models hallucinate under actual usage.

Two Evaluation Strategies

Kyiashko uses two complementary approaches to evaluate AI systems.

Code-based evaluators handle objective verification. “Code-based evaluators are ideal when the failure definition is objective and can be checked with rules. For example: parsing structure, checking JSON validity or SQL syntax,” he explains.

But some failures resist binary classification. Was the tone appropriate? Is the summary faithful? Is the response helpful? “LLM-as-Judge evaluators are used when the failure mode involves interpretation or nuance that code can’t capture.”

For the LLM-as-Judge approach, Kyiashko relies on LangGraph. Neither approach works alone. Effective frameworks use both.

What Classic QA Training Misses

Experienced quality engineers struggle when they first test AI systems. The assumptions that made them effective don’t transfer.

“In classic QA, we know exactly the system’s response format, we know exactly the format of input and output data,” Kyiashko explains. “In AI system testing, there’s no such thing.” Input data is a prompt—and the variations in how customers phrase requests are endless.

This demands continuous monitoring. Kyiashko calls it “continuous error analysis”—regularly reviewing how agents respond to actual users, identifying where they fabricate information, and updating test suites accordingly.

The challenge compounds with instruction volume. AI systems require extensive prompts defining behavior and constraints. Each instruction can interact unpredictably with others. “One of the problems with AI systems is the huge number of instructions that constantly need to be updated and tested,” he notes.

The knowledge gap is significant. Most engineers lack clear understanding of appropriate metrics, effective dataset preparation, or reliable methods for validating outputs that change with each run. “Making an AI agent isn’t difficult,” Kyiashko observes. “Automating the testing of that agent is the main challenge. From my observations and experience, more time is spent testing and optimizing AI systems than creating them.”

Reliable Weekly Releases

Hallucinations erode trust faster than bugs. A broken feature frustrates users. An agent confidently providing false information destroys credibility.

Kyiashko’s testing methodology enables reliable weekly releases. Automated validation catches regressions before deployment. Systems trained and tested with real data handle most customer requests correctly.

Weekly iteration drives competitive advantage. AI systems improve through adding capabilities, refining responses, expanding domains.

Why This Matters for Quality Engineering

Companies integrating AI grow daily. “The world has already seen the benefits of using AI, so there’s no turning back,” Kyiashko argues. AI adoption accelerates across industries—more startups launching, more enterprises integrating intelligence into core products.

If engineers build AI systems, they must understand how to test them. “Even today, we need to understand how LLMs work, how AI agents are built, how these agents are tested, and how to automate these checks.”

Prompt engineering is becoming mandatory for quality engineers. Data testing and dynamic data validation follow the same trajectory. “These should already be the basic skills of test engineers.”

The patterns Kyiashko sees across the industry confirm this shift. Through his work reviewing technical papers on AI evaluation and assessing startup architectures at technical forums, the same issues appear repeatedly: teams everywhere face identical problems. The validation challenges he solved in production years ago are now becoming universal concerns as AI deployment scales.

Testing Infrastructure That Scales

Kyiashko’s methodology addresses evaluation principles, multi-turn conversation assessment, and metrics for different failure modes.

The core concept: diversified testing. Code-level validation catches structural errors. LLM-as-Judge evaluation enables assessment of AI system effectiveness and accuracy depending on which LLM version is being used. Manual error analysis identifies patterns. RAG testing verifies agents use provided context rather than inventing details.

“The framework I describe is based on the concept of a diversified approach to testing AI systems. We use code-level coverage, LLM-as-Judge evaluators, manual error analysis, and Evaluating Retrieval-Augmented Generation.” Multiple validation methods working together catch different hallucination types that single approaches miss.

What Comes Next

The field defines best practices in real time through production failures and iterative refinement. More companies deploy generative AI. More models make autonomous decisions. Systems get more capable, which means hallucinations get more plausible.

But systematic testing catches fabrications before users encounter them. Testing for hallucinations isn’t about perfection—models will always have edge cases where they fabricate. It’s about catching fabrications systematically and preventing them from reaching production.

The techniques work when applied correctly. What’s missing is widespread understanding of how to implement them in production environments where reliability matters.

Dmytro Kyiashko is a Software Developer in Test specializing in AI systems testing, with experience building test frameworks for conversational AI and autonomous agents. His work examines reliability and validation challenges in multimodal AI systems.

Comments
Market Opportunity
Large Language Model Logo
Large Language Model Price(LLM)
$0.0003385
$0.0003385$0.0003385
-0.96%
USD
Large Language Model (LLM) Live Price Chart
Disclaimer: The articles reposted on this site are sourced from public platforms and are provided for informational purposes only. They do not necessarily reflect the views of MEXC. All rights remain with the original authors. If you believe any content infringes on third-party rights, please contact service@support.mexc.com for removal. MEXC makes no guarantees regarding the accuracy, completeness, or timeliness of the content and is not responsible for any actions taken based on the information provided. The content does not constitute financial, legal, or other professional advice, nor should it be considered a recommendation or endorsement by MEXC.

You May Also Like

Uniswap stemt in met token burn van 100 miljoen UNI

Uniswap stemt in met token burn van 100 miljoen UNI

Uniswap (UNI) heeft een belangrijke stap gezet in de verdere ontwikkeling van zijn tokenomics. In een recente governance-stemming hebben houders van het UNI-token
Share
Coinstats2025/12/26 21:47
Which Crypto to Buy Today for Long-Term Growth? One DeFi Crypto Stands Out

Which Crypto to Buy Today for Long-Term Growth? One DeFi Crypto Stands Out

The post Which Crypto to Buy Today for Long-Term Growth? One DeFi Crypto Stands Out appeared on BitcoinEthereumNews.com. Crypto Projects Investors searching for
Share
BitcoinEthereumNews2025/12/26 22:32
Ethereum koers toont zeldzaam dubbel koopsignaal en richt zich op $4.550

Ethereum koers toont zeldzaam dubbel koopsignaal en richt zich op $4.550

Connect met Like-minded Crypto Enthusiasts! Connect op Discord! Check onze Discord   Ethereum laat op de uurgrafiek twee opeenvolgende TD Sequential koopsignalen zien. Deze indicator meet uitputting in een trend en geeft vaak een signaal dat de verkoopdruk kan afnemen. Dit dubbele signaal verschijnt rond het niveau van $4.516, waar de ETH prijs kortstondig steun vindt. Dit type formatie komt zelden voor en wordt daarom extra nauwlettend gevolgd. Wat gaat de Ethereum koers hiermee doen? Ethereum koers test steun rond $4.516 De scherpe daling van de Ethereum koers vanaf de prijszone rond $4.800 bracht de ETH prijs in korte tijd naar ongeveer $4.516. Op dit niveau trad duidelijke koopactiviteit op, waardoor de neerwaartse beweging tijdelijk werd gestopt. Het dubbele signaal dat door de TD Sequential indicator is gegenereerd, viel precies samen met dit prijspunt. De TD Sequential is opgebouwd uit negen candles die een trend meetellen. Wanneer de negende candle verschijnt, kan dit duiden op een trendomslag. In dit geval verschenen zelfs twee signalen kort na elkaar, wat aangeeft dat de verkoopdruk mogelijk uitgeput is. Het feit dat dit gebeurde in een zone waar ETH kopers actief bleven, maakt het patroon extra opvallend. TD Sequential just flashed two buy signals for Ethereum $ETH! pic.twitter.com/JPO8EhiEPi — Ali (@ali_charts) September 16, 2025 Welke crypto nu kopen?Lees onze uitgebreide gids en leer welke crypto nu kopen verstandig kan zijn! Welke crypto nu kopen? Fed-voorzitter Jerome Powell heeft aangekondigd dat de rentes binnenkort zomaar eens omlaag zouden kunnen gaan, en tegelijkertijd blijft BlackRock volop crypto kopen, en dus lijkt de markt klaar om te gaan stijgen. Eén vraag komt telkens terug: welke crypto moet je nu kopen? In dit artikel bespreken we de munten die… Continue reading Ethereum koers toont zeldzaam dubbel koopsignaal en richt zich op $4.550 document.addEventListener('DOMContentLoaded', function() { var screenWidth = window.innerWidth; var excerpts = document.querySelectorAll('.lees-ook-description'); excerpts.forEach(function(description) { var excerpt = description.getAttribute('data-description'); var wordLimit = screenWidth wordLimit) { var trimmedDescription = excerpt.split(' ').slice(0, wordLimit).join(' ') + '...'; description.textContent = trimmedDescription; } }); }); Technische indicatoren schetsen herstelkans voor ETH Naast de dubbele koopsignalen verstrekken ook andere indicatoren belangrijke aanwijzingen. Tijdens de daling van de ETH koers waren grote rode candles zichtbaar, maar na de test van $4.516 stabiliseerde de Ethereum koers. Dit wijst op een mogelijke verschuiving in het evenwicht tussen de bears en bulls. Als deze opwaartse beweging doorzet, liggen de eerste weerstanden rond $4.550. Daarboven wacht een sterkere zone rond $4.650. Deze niveaus zijn in eerdere Ethereum sessies al meerdere keren getest. Een doorbraak zou ruimte openen richting de all-time high van ETH rond $4.953. Wanneer de prijs toch opnieuw onder $4.516 zakt, liggen er zones rond $4.500 en $4.450 waar grotere kooporders worden verwacht. Deze niveaus kunnen als een vangnet fungeren, mocht de druk opnieuw toenemen. Marktdynamiek bevestigt technische indicatoren De huidige situatie volgt op een bredere correctie in de cryptomarkt. Verschillende vooraanstaande crypto tokens zagen scherpe koersdalingen, waarna traders op zoek gingen naar signalen voor een mogelijke ommekeer. Dat juist Ethereum nu een dubbel TD Sequential signaal toont, versterkt de interesse in dit scenario. Fundamenteel blijft Ethereum sterk. Het aantal ETH tokens dat via staking is vastgezet, blijft groeien. Dat verkleint de vrije circulatie en vermindert verkoopdruk. Tegelijk blijft het netwerk intensief gebruikt voor DeFi, NFT’s en stablecoins. Deze activiteiten zorgen voor een stabiele vraag naar ETH, ook wanneer de prijs tijdelijk onder druk staat. Fundamentele drijfveren achter de Ethereum koers De Ethereum koers wordt echter niet alleen bepaald door candles en patronen, maar ook door bredere factoren. Een stijgend percentage van de totale ETH supply staat vast in staking contracten. Hierdoor neemt de liquiditeit op exchanges af. Dit kan prijsschommelingen versterken wanneer er plotseling meer koopdruk ontstaat. Daarnaast is Ethereum nog steeds het grootste smart contract platform. Nieuwe standaarden zoals ERC-8004 en ontwikkelingen rond layer-2 oplossingen houden de activiteit hoog. Deze technologische vooruitgang kan de waardepropositie ondersteunen en zo indirect bijdragen aan een ETH prijsherstel. Het belang van de korte termijn dynamiek De komende handelsdagen zullen duidelijk maken of de bulls genoeg kracht hebben om door de weerstandszone rond $4.550 te breken. Voor de bears ligt de focus juist op het verdedigen van de prijsregio rond $4.516. De whales, die met grote handelsorders opereren, kunnen hierin een beslissende rol spelen. Het dubbele TD Sequential signaal blijft hoe dan ook een zeldzame gebeurtenis. Voor cryptoanalisten vormt het een objectief aanknopingspunt om de kracht van de huidige Ethereum trend te toetsen. Vooruitblik op de ETH koers Ethereum liet twee opeenvolgende TD Sequential signalen zien op de uurgrafiek, iets wat zelden voorkomt. Deze formatie viel samen met steun rond $4.516, waar de bulls actief werden. Als de Ethereum koers boven dit niveau blijft, kan er ruimte ontstaan richting $4.550 en mogelijk $4.650. Zakt de prijs toch opnieuw onder $4.516, dan komen $4.500 en $4.450 in beeld als nieuwe steunzones. De combinatie van zeldzame indicatoren en een sterke fundamentele basis maakt Ethereum interessant voor zowel technische als fundamentele analyses. Of de bulls het momentum echt kunnen overnemen, zal blijken zodra de Ethereum koers de eerstvolgende weerstanden opnieuw test. Koop je crypto via Best Wallet Best wallet is een topklasse crypto wallet waarmee je anoniem crypto kan kopen. Met meer dan 60 chains gesupport kan je al je main crypto coins aanschaffen via Best Wallet. Best wallet - betrouwbare en anonieme wallet Best wallet - betrouwbare en anonieme wallet Meer dan 60 chains beschikbaar voor alle crypto Vroege toegang tot nieuwe projecten Hoge staking belongingen Lage transactiekosten Best wallet review Koop nu via Best Wallet Let op: cryptocurrency is een zeer volatiele en ongereguleerde investering. Doe je eigen onderzoek. Het bericht Ethereum koers toont zeldzaam dubbel koopsignaal en richt zich op $4.550 is geschreven door Dirk van Haaster en verscheen als eerst op Bitcoinmagazine.nl.
Share
Coinstats2025/09/17 23:31