Tale-til-tekst

Den mest præcise transskription af dansk tale

9.01% WER på oplæst dansk. 19.21% på samtaledansk. 425× hurtigere end realtid på én GPU. Åbne vægte. Kør lokalt uden at sende data ud af huset.

Kontakt os Hent på Hugging Face

Hviske v5.3 · udgivet 2026 · CC BY-NC 4.0

9.01%

WER på oplæst dansk (CoRal v3)

19.21%

WER på samtaledansk

~425×

Hurtigere end realtid på én RTX 3090

Parametre

Licens og adgang

Åbne vægte, dine data

Download, kør lokalt, og lad lydoptagelserne blive hos jer. Ingen upload til OpenAI eller andre tredjeparter.

CC BY-NC 4.0

Hviske v5.3 er udgivet med åbne vægte på Hugging Face under CC BY-NC 4.0. Du kan downloade modellen og køre den lokalt. Dine lydoptagelser forlader aldrig din infrastruktur.

Licensen tillader fri brug til forskning, undervisning og personlige projekter. Kommerciel brug kræver en separat licens.

Se hviske-v5.3 på Hugging Face

Kommerciel licens

Skal modellen bruges i et kommercielt produkt, til on-prem support eller fine-tuning på jeres egne data? Kontakt os for en skræddersyet aftale.

Vi hjælper med opsætning, integration og drift, uanset om det er i skyen eller på egne servere.

Kontakt os

Kom i gang

Integrér Hviske på minutter

Hviske v5.3 leveres med et indbygget transcribe()-API, der håndterer batching, sampling og automatisk chunking af lange optagelser.

Python · pip install transformers torch soundfile librosa

import torch, numpy as np, soundfile as sf
from transformers import AutoProcessor, AutoModelForSpeechSeq2Seq

processor = AutoProcessor.from_pretrained(
    "syvai/hviske-v5.3", trust_remote_code=True
)
model = AutoModelForSpeechSeq2Seq.from_pretrained(
    "syvai/hviske-v5.3",
    trust_remote_code=True,
    dtype=torch.bfloat16,
).to("cuda").eval()

audio, sr = sf.read("din_lydfil.wav")
audio = np.asarray(audio, dtype=np.float32)

text = model.transcribe(
    processor=processor,
    language="da",
    audio_arrays=[audio],
    sample_rates=[sr],
)[0]

print(text)

Modellen håndterer automatisk lyd længere end 35 sekunder via intern chunking. Lyd resamples til 16 kHz.

Benchmarks

State-of-the-art på CoRal v3

Hviske v5.3 leverer de bedste resultater på Danmarks største offentlige benchmark for dansk tale.

CoRal v3: oplæst (CER)

Model	Param.	CER
syvai/hviske-v5.3	2B	3.63%
CoRal-project/roest-whisper-1.5b-v1	1.54B	4.0%
syvai/hviske-v2	1.54B	4.0%
openai/whisper-large-v3	1.54B	10.1%

CoRal v3: samtale (CER)

Model	Param.	CER
syvai/hviske-v5.3	2B	11.35%
CoRal-project/roest-whisper-1.5b-v2	1.54B	11.6%
CoRal-project/roest-wav2vec2-315m-v3	315M	13.7%
openai/whisper-large-v3	1.54B	27.5%
syvai/hviske-v2	1.54B	29.4%

~425× realtid

Hviske v5.3 transskriberer 60 minutters lyd på ca. 8.5 sekunder på en enkelt NVIDIA RTX 3090 i bfloat16. Det gør den velegnet til både stor-skala batch-processering og lav-latens applikationer.

Tal rapporteret med strict-normalisering. Beam search giver ~0,4 procentpoint lavere WER mod ~75% inferens-overhead.

Anvendelser

Præcis dansk transskription, lokalt

Fire områder hvor præcis dansk transskription uden cloud-overførsel løser et reelt problem.

Medier og podcast

Skalerbar batch-transskription af arkiver. Søgbar tekst på hundredvis af timers lyd.

Kommuner og regioner

Mødereferater og sagsbehandling uden at sende borgerlyd til OpenAI.

Sundhedssektoren

Lægediktering og journalnotater. GDPR-kritisk; lyden må aldrig forlade huset.

Forskning og sprogteknologi

Korpus-arbejde, sprogforskning, datasæt-annotering på dansk i stor skala.

Klar til den mest præcise danske transskription?

Hent modellen og test den selv gratis under CC BY-NC 4.0. Skal den i produktion? Kontakt os for kommerciel licens, on-prem support eller fine-tuning på jeres egne data.

Kontakt os