KI-Beratung

Kostenlos transkribieren: Die 10 besten Tools im Vergleich

Inhaltsverzeichnis

Kostenlos transkribieren lässt sich heute mit erstaunlicher Genauigkeit - vorausgesetzt, Sie wählen das richtige Tool für Ihren Bedarf. Der globale Markt für Spracherkennungssoftware wächst laut MarketsandMarkets auf 23 Milliarden US-Dollar bis 2030, und auch im deutschen Mittelstand steigt die Nachfrage nach automatischer Transkription. Ob Meeting-Protokoll, Interview oder Podcast: Moderne Speech-to-Text-Modelle wie OpenAI Whisper erreichen für Deutsch eine Erkennungsrate von 92 bis 95 Prozent. Die Frage ist nur, welches kostenlose Transkriptionstool für welchen Zweck taugt - und wo die Grenzen der Gratisversionen liegen. Genau das klären wir in diesem Vergleich.

Kennzahlen auf einen Blick

KennzahlWert
Marktvolumen Spracherkennung 203023,1 Mrd. USD (CAGR 19,1 %)
Erkennungsrate Whisper large-v3 (Deutsch)92-95 %
Zeitersparnis vs. manuelle Transkriptionbis zu 98 %
KI-Nutzung in deutschen Unternehmenca. 50 %
Barrierefreiheitspflicht (BFSG)ab 28. Juni 2025

Quellen: MarketsandMarkets 2025, OpenAI Whisper-Benchmarks 2023, Bitkom 2024

Kann man Audio kostenlos in Text umwandeln?

Ja, und zwar mit deutlich besserer Qualität als noch vor zwei Jahren. Kostenlose Transkriptionstools nutzen KI-basierte Spracherkennung (Automatic Speech Recognition, kurz ASR), um Audiodateien automatisch in Text umzuwandeln. Die Technologie dahinter basiert auf neuronalen Netzen mit Transformer-Architektur: Das Audio-Signal wird in ein Spektrogramm zerlegt, ein Encoder analysiert die Sprachmuster, und ein Decoder erzeugt daraus Wort für Wort den geschriebenen Text.

Der Unterschied zu früheren Systemen ist enorm. Wo klassische Spracherkennung noch einzelne Wörter mühsam abglich, erfassen moderne Modelle ganze Satzstrukturen im Kontext. OpenAI Whisper large-v3 wurde auf über 5 Millionen Stunden Audiomaterial trainiert und erkennt 99 Sprachen. Für deutschsprachige Aufnahmen mit guter Audioqualität liegt die Word Error Rate bei rund 5 bis 8 Prozent - das bedeutet, von hundert Wörtern werden nur fünf bis acht falsch erkannt. Manuelle Transkription benötigt dagegen 5 bis 10 Stunden pro Stunde Audio. Automatische Tools schaffen dasselbe in 5 bis 15 Minuten.

Automatisch vs. manuell: Wann reicht die Maschine?

Für Standard-Deutsch mit klarer Aussprache und wenig Hintergrundgeräuschen liefern die besten kostenlosen Tools ein Transkript, das mit minimaler Nachbearbeitung nutzbar ist. Bei starkem Dialekt, Fachvokabular oder überlappenden Sprechern sinkt die Genauigkeit deutlich. In solchen Fällen lohnt sich entweder ein kostenpflichtiges Tool mit anpassbarem Glossar oder eine Kombination aus automatischer Transkription und anschließender manueller Korrektur.

Die 10 besten Tools zum kostenlosen Transkribieren

Für diesen Vergleich haben wir zehn Transkriptionstools auf ihre kostenlosen Funktionen geprüft. Die Auswahl deckt drei Kategorien ab: komplett kostenlose Open-Source-Lösungen, Freemium-Dienste mit Gratis-Kontingent und integrierte Funktionen in Software, die viele Unternehmen bereits nutzen.

Die wichtigsten Bewertungskriterien: Sprachen, Gratis-Limit, Genauigkeit, Sprechererkennung und Datenschutz.

  1. OpenAI Whisper - Open Source, lokal, keine Limits
  2. Google Docs Spracheingabe - Live-Diktat im Browser
  3. Microsoft Word / 365 Transkription - bis 300 Min./Monat im Abo
  4. Happy Scribe - 10 Min. kostenlos, 150+ Sprachen
  5. Amberscript - EU-basiert, ISO-zertifiziert
  6. Transkriptor - 30 Min./Tag kostenlos
  7. Notta - 200 Min./Monat kostenlos
  8. Otter.ai - stark bei Englisch, Meeting-Fokus
  9. Noota - EU-basiert, AI-Act-konform
  10. Insanely Fast Whisper - Open Source, extrem schnell

OpenAI Whisper

Whisper ist das Referenzmodell für kostenlose Transkription. Als Open-Source-Software unter MIT-Lizenz läuft es komplett lokal auf dem eigenen Rechner. Keine Daten verlassen das Unternehmen, keine Limits bei Dateigröße oder Dauer. Das Modell gibt es in sechs Größen - vom schlanken Tiny-Modell (39 Millionen Parameter) bis zum Large-v3 mit 1,55 Milliarden Parametern. Die Turbo-Variante bietet einen guten Kompromiss: achtmal schneller als Large bei minimaler Genauigkeitseinbuße. Einzige Hürde: Die Installation erfordert technisches Know-how (Python, ffmpeg) und idealerweise eine GPU.

Google Docs Spracheingabe

Wer nur gelegentlich diktieren will, braucht nicht mehr als ein Google-Konto. Die Spracheingabe in Google Docs unterstützt über 100 Sprachen und erkennt auf Deutsch auch Satzzeichenbefehle wie “Punkt”, “Komma” oder “Neuer Absatz”. Allerdings: Die Funktion verarbeitet nur Live-Sprache über das Mikrofon. Audiodateien lassen sich nicht hochladen. Für ein schnelles Protokoll während eines Gesprächs taugt das, für die Nachbearbeitung aufgezeichneter Meetings nicht.

Microsoft Word / Microsoft 365

Für Unternehmen im Microsoft-Ökosystem ist die eingebaute Transkriptionsfunktion der logischste Einstieg. Das Diktat-Feature in Word Online funktioniert kostenlos, die erweiterte Transkription mit Upload von Audiodateien und Sprechererkennung gibt es im Microsoft 365 Business-Abo (bis 300 Minuten pro Monat). Die Nuance-Technologie im Backend liefert gute Ergebnisse für Business-Deutsch, und Microsoft bietet EU-Datenresidenz mit Auftragsverarbeitungsvertrag.

Happy Scribe

Happy Scribe mit Sitz in Barcelona bietet im kostenlosen Plan 10 Minuten KI-Transkription zum Testen. Die Bezahlpläne starten bei 8,50 Euro pro Monat für 120 Minuten. Stärken: 150 Sprachen, automatische Sprechererkennung, Untertitel-Export in SRT/VTT. Die Plattform ist SOC 2 Type II zertifiziert und DSGVO-konform. Laut Happy Scribe spart die Schweizer Mediengruppe Tamedia 3 bis 4 Stunden pro Interview-Transkription.

Amberscript

Das Amsterdamer Unternehmen positioniert sich als Europas sicherste Lösung für automatische Transkription. Amberscript bietet keinen dauerhaft kostenlosen Plan, aber Pay-as-you-go-Optionen. Die Stärke liegt im Datenschutz: ISO 27001, ISO 9001, TPN-Siegel, Datenverarbeitung ausschließlich in der EU. Die automatische Genauigkeit liegt bei etwa 85 Prozent, menschliche Nachbearbeitung bringt über 99 Prozent. Für Behörden und regulierte Branchen eine der sichersten Optionen.

Transkriptor

Transkriptor bietet laut eigener Angabe 30 Minuten kostenlose Transkription pro Tag. Die App unterstützt über 100 Sprachen und läuft als Web-App, Chrome-Extension und auf mobilen Geräten. Zusätzlich zur Transkription liefert das Tool KI-Zusammenfassungen, Sprechererkennung und Stimmungsanalyse. Bewertungen auf Trustpilot liegen bei 4,8 von 5 Sternen. Der Firmensitz in Dubai bedeutet allerdings: Den genauen Serverstandort der Datenverarbeitung sollten Unternehmen vor dem Einsatz prüfen.

Notta

Notta stellt im kostenlosen Plan 200 Minuten pro Monat zur Verfügung und unterstützt 58 Sprachen. Das Tool kann bilinguale Transkriptionen erstellen, was für internationale Teams im Mittelstand praktisch ist. Die Funktion “Notta Brain” wandelt Meeting-Inhalte automatisch in Infografiken und Präsentationsfolien um. Notta gibt an, SOC 2 Type II zertifiziert und DSGVO-konform zu sein.

Otter.ai

Otter.ai ist der bekannteste KI-Meeting-Assistent aus den USA. Der kostenlose Basic-Plan bietet unbegrenzte Meetings mit Transkription, KI-Zusammenfassungen und Aktionspunkten. Die Stärke: exzellente Ergebnisse bei englischsprachigen Gesprächen und tiefe Integration in Zoom, Teams und Google Meet. Die Schwäche für den DACH-Raum: Deutsch wird nur eingeschränkt unterstützt, und die Datenverarbeitung erfolgt in den USA - für vertrauliche Unternehmensinhalte ohne zusätzliche Schutzmaßnahmen problematisch.

Noota

Das französische Unternehmen Noota hat sich auf KI-gestützte Meeting-Assistenten spezialisiert. Die Plattform ist nicht nur DSGVO-konform, sondern auch AI-Act-konform und SecNumCloud-zertifiziert - das französische Pendant zur C5-Zertifizierung. Noota gibt an, dass Teams mit dem Tool 80 Prozent weniger Verwaltungsaufwand bei der Meeting-Dokumentation haben. Für Unternehmen, die Wert auf europäische Datensouveränität legen, eine der stärksten Optionen.

Insanely Fast Whisper

Dieses Open-Source-Projekt beschleunigt das Whisper-Modell durch Optimierungen wie Flash Attention 2 und Batching drastisch. Auf einer Nvidia A100 GPU transkribiert es 150 Minuten Audio in unter 2 Minuten. Für Unternehmen mit eigener GPU-Infrastruktur ist das die schnellste Möglichkeit, große Mengen Audio kostenlos zu transkribieren. Die Einrichtung setzt allerdings DevOps-Know-how voraus.

Tool-Vergleich: Funktionen, Limits und Preise auf einen Blick

Die folgende Tabelle zeigt die wichtigsten Unterschiede zwischen den getesteten Transkriptionstools. Alle Angaben beziehen sich auf den kostenlosen Plan oder die Gratisversion.

ToolGratis-LimitSprachenSprechererkennungDSGVO-Eignung
Whisper (lokal)Unbegrenzt99+Nein (Drittanbieter)Perfekt (lokal)
Google DocsUnbegrenzt (nur Live)100+NeinEingeschränkt
Microsoft 365300 Min./Monat30+JaSehr gut (EU)
Happy Scribe10 Min.150+JaSehr gut (EU)
AmberscriptKein Gratis-Plan39+JaSehr gut (EU)
Transkriptor30 Min./Tag100+JaPrüfung nötig
Notta200 Min./Monat58JaGut
Otter.aiUnbegrenzt (Meetings)Primär ENJaEingeschränkt (US)
NootaEinstieg kostenlos80+JaSehr gut (EU)
Insanely Fast WhisperUnbegrenzt99+Nein (Drittanbieter)Perfekt (lokal)

Für Einzelanwender und kleine Teams mit gelegentlichem Bedarf eignen sich Transkriptor und Notta am besten - beide bieten ein großzügiges Gratis-Kontingent mit Sprechererkennung. Unternehmen im Microsoft-Ökosystem profitieren von der integrierten Transkriptionsfunktion in Microsoft 365. Wer maximale Kontrolle über seine Daten will und über technisches Know-how verfügt, fährt mit Whisper oder Insanely Fast Whisper am besten.

Wie genau sind kostenlose Transkriptionstools?

Die Genauigkeit hängt stärker von der Audioqualität ab als vom Tool selbst. Whisper large-v3 erreicht laut OpenAI-Benchmarks eine Word Error Rate von rund 6,2 Prozent für Deutsch auf dem Fleurs-Datensatz - das entspricht einer Erkennungsrate von etwa 94 Prozent. Kommerzielle Tools wie Happy Scribe oder Amberscript liegen mit ihren automatischen Engines bei vergleichbaren 90 bis 95 Prozent. Menschliche Transkription erreicht über 99 Prozent.

Vier Faktoren beeinflussen die Erkennungsrate maßgeblich:

  • Audioqualität und Hintergrundgeräusche (Headset liefert bessere Ergebnisse als ein Raummikrofon)
  • Klarheit der Aussprache und Sprechtempo
  • Dialekte und Akzente (starke Mundart senkt die Genauigkeit um 10 bis 20 Prozentpunkte)
  • Fachbegriffe und Eigennamen (technisches Vokabular wird häufiger falsch erkannt)

Wer regelmäßig Aufnahmen mit Fachvokabular oder mehreren Sprechern transkribiert, kommt mit einem kostenlosen Tool an Grenzen. In solchen Fällen lohnt sich ein Dienst mit anpassbarem Glossar oder die manuelle Nachbearbeitung des automatischen Transkripts.

Audio transkribieren: Kostenlos vs. kostenpflichtig

Die Grenze zwischen kostenloser und bezahlter Transkription verläuft nicht bei der Qualität des einzelnen Transkripts, sondern bei Volumen, Komfortfunktionen und Datenschutz. Für ein einzelnes Meeting oder ein gelegentliches Interview reicht die kostenlose Variante vollkommen aus. Wer allerdings täglich Audio transkribieren muss, stößt schnell an Minutenlimits.

KriteriumKostenlos ausreichendKostenpflichtig sinnvoll
VolumenUnter 5 Stunden/MonatÜber 5 Stunden/Monat
Sprecher1-2, klar getrenntMehrere, überlappend
FachvokabularStandard-DeutschMedizin, Recht, Technik
IntegrationManueller ExportCRM, Projektmanagement
DatenschutzUnkritische InhalteVertrauliche Gespräche
ZusammenfassungenNicht benötigtKI-generierte Protokolle

Die Zeitersparnis ist in beiden Fällen erheblich. Manuelle Transkription kostet pro Stunde Audio zwischen 5 und 10 Stunden Arbeitszeit. Bei durchschnittlichen Personalkosten von 50 Euro pro Stunde im DACH-Raum bedeutet das: Jedes automatisch transkribierte Meeting spart 250 bis 500 Euro gegenüber der manuellen Variante. Laut Atlassian verbringen Mitarbeiter im Schnitt 31 Stunden pro Monat in Meetings - ein enormes Transkriptionspotenzial.

Datenschutz und DSGVO beim Transkribieren

Für Unternehmen im DACH-Raum ist Datenschutz bei der Auswahl eines Transkriptionstools kein Nebenschauplatz. Laut Cisco Data Privacy Benchmark Study 2025 geben 90 Prozent aller Organisationen an, dass KI-Nutzung ihren Datenschutz-Aufwand erhöht hat. Gleichzeitig besitzen nur 12 Prozent ein ausgereiftes AI-Governance-Konzept. Die Lücke ist real - besonders bei kostenlosen Cloud-Tools.

Drei Punkte sollten Unternehmen vor dem Einsatz eines Transkriptionstools klären:

  1. Serverstandort: Wo werden die Audiodaten verarbeitet? Europäische Anbieter wie Amberscript (Niederlande), Noota (Frankreich) und Happy Scribe (Spanien) verarbeiten Daten innerhalb der EU. Bei US-Tools wie Otter.ai greift das EU-US Data Privacy Framework, bietet aber weniger Kontrolle.

  2. Auftragsverarbeitungsvertrag (AVV): Nach Artikel 28 DSGVO ist ein AVV bei Cloud-basierten Diensten Pflicht. Microsoft 365 und die europäischen Anbieter stellen diesen standardmäßig bereit. Bei vielen kostenlosen Tools fehlt er.

  3. Lokale Verarbeitung: Wer gar kein Risiko eingehen will, installiert Whisper auf einem eigenen Server. Keine Audiodaten verlassen das Unternehmen. Die Bitkom beziffert die KI-Nutzung in deutschen Unternehmen auf rund 50 Prozent - viele davon setzen bereits auf lokale Lösungen, um Compliance-Anforderungen zu erfüllen.

Zusätzlich relevant: Das Barrierefreiheitsstärkungsgesetz (BFSG) verpflichtet Unternehmen seit Juni 2025, digitale Inhalte barrierefrei anzubieten. Videoinhalte benötigen Untertitel, Audioinhalte Transkripte. Automatische Transkription wird damit zur Compliance-Pflicht, nicht nur zum Produktivitätstool. Für Unternehmen, die KI im Büro bereits produktiv einsetzen, ist die Integration eines Transkriptionstools ein logischer nächster Schritt.

Welche Transkriptions-App ist DSGVO-konform?

Keine App ist per se DSGVO-konform - entscheidend ist, wie das Unternehmen sie einsetzt. Trotzdem gibt es klare Unterschiede: Tools mit Serverstandort in der EU, ISO-Zertifizierung und standardmäßigem AVV machen die Compliance deutlich einfacher.

Die sichersten Optionen für den Mittelstand:

  • Maximaler Schutz: Whisper lokal installieren. Keinerlei Datenübertragung an Dritte. Die IT-Abteilung muss die Installation übernehmen.
  • Europäische SaaS-Lösung: Amberscript (ISO 27001, ISO 9001, TPN-Siegel, Datenverarbeitung in der EU) oder Noota (SOC 2, ISO 27001, AI-Act-konform, SecNumCloud).
  • Im Microsoft-Ökosystem: Die Transkriptionsfunktion in Microsoft 365 nutzen. EU-Datenresidenz und AVV sind im Business-Abo enthalten.

Wer regelmäßig vertrauliche Gespräche - etwa Kundengespräche, HR-Interviews oder Vorstandssitzungen - transkribiert, sollte die Datenverarbeitung nicht einem kostenlosen Tool mit unklarem Serverstandort überlassen. Die Investition in ein europäisches Tool oder eine lokale Installation ist hier die bessere Wahl. Wer tiefer in das Thema KI für Unternehmen einsteigen will, findet dort eine breitere Übersicht über sichere Einsatzmöglichkeiten.

So starten Sie mit kostenloser Transkription

Der schnellste Einstieg in kostenlose Transkription hängt von der vorhandenen Infrastruktur ab. Drei Szenarien für den Anfang:

Szenario 1: Ohne technische Vorkenntnisse

Erstellen Sie ein Konto bei Transkriptor oder Notta. Beide Tools bieten ein großzügiges Gratis-Kontingent und funktionieren direkt im Browser. Laden Sie eine Audiodatei hoch und prüfen Sie das Transkript auf Qualität. Für den Anfang reicht das.

Szenario 2: Im Microsoft-Ökosystem

Öffnen Sie Word Online, klicken Sie auf “Diktieren” und dann auf “Transkribieren”. Sie können eine Audiodatei (MP3, WAV, M4A) hochladen und erhalten ein Transkript mit Zeitstempeln und Sprecherzuordnung. Das Kontingent von 300 Minuten pro Monat reicht für die meisten kleinen Teams.

Szenario 3: Mit IT-Know-how

Installieren Sie OpenAI Whisper lokal. Sie brauchen Python 3.8+, ffmpeg und idealerweise eine GPU mit mindestens 4 GB VRAM. Ein einziger Befehl genügt: pip install openai-whisper. Danach transkribieren Sie beliebig viele Dateien, ohne dass Daten Ihr Netzwerk verlassen. Für große Volumina lohnt sich Insanely Fast Whisper mit Flash Attention 2 - damit verarbeiten Sie 150 Minuten Audio in unter 2 Minuten.

Das richtige Tool zum kostenlos Transkribieren finden

Die Wahl des passenden Transkriptionstools hängt von drei Faktoren ab: Volumen, Datenschutzanforderungen und technisches Know-how. Wer gelegentlich ein Meeting-Protokoll braucht, kommt mit Notta oder der Microsoft-365-Transkription kostenlos aus. Unternehmen mit hohem Transkriptionsvolumen oder sensiblen Inhalten sollten Whisper lokal oder einen europäischen Anbieter wie Amberscript oder Noota wählen.

Der Markt für Spracherkennung wächst laut MarketsandMarkets mit einer jährlichen Rate von 19,1 Prozent. Die Tools werden besser, schneller und zugänglicher. Wer heute mit kostenloser Transkription startet, baut Erfahrung auf, identifiziert die eigenen Anforderungen und kann bei steigendem Bedarf gezielt auf ein Bezahlmodell umsteigen.

Sie möchten KI-Tools wie automatische Transkription systematisch in Ihrem Unternehmen einführen? Sprechen Sie uns an - wir beraten Sie unverbindlich.

Häufige Fragen

Welches Programm wandelt Sprache in Text um?

Die bekanntesten Programme zur Umwandlung von Sprache in Text sind OpenAI Whisper, Transkriptor, Notta und die integrierte Transkriptionsfunktion in Microsoft 365. Whisper ist als Open-Source-Modell komplett kostenlos und läuft lokal auf dem eigenen Rechner. Für den schnellen Einstieg ohne Installation eignen sich cloudbasierte Tools wie Transkriptor oder Notta, die jeweils ein kostenloses Kontingent bieten.

Wie lange dauert eine automatische Transkription?

Eine automatische Transkription dauert in der Regel 5 bis 15 Minuten pro Stunde Audio. Das ist bis zu 98 Prozent schneller als manuelle Transkription, die 5 bis 10 Stunden pro Audiostunde benötigt. Bei optimierten lokalen Lösungen wie Insanely Fast Whisper mit GPU-Beschleunigung sind sogar 150 Minuten Audio in unter 2 Minuten möglich.

Ist Whisper von OpenAI wirklich kostenlos?

Ja, OpenAI Whisper ist vollständig kostenlos und unter der MIT-Lizenz als Open-Source-Software verfügbar. Es gibt keine Nutzungslimits, keine Registrierung und keine versteckten Kosten. Die einzige Voraussetzung ist die lokale Installation mit Python und ffmpeg. Für die beste Leistung empfiehlt sich eine GPU mit mindestens 4 GB VRAM.

Kann ich ein ganzes Meeting automatisch transkribieren lassen?

Ja, die meisten Transkriptionstools verarbeiten Aufnahmen beliebiger Länge. Bei cloudbasierten Diensten wie Notta (200 Minuten/Monat kostenlos) oder Microsoft 365 (300 Minuten/Monat) gibt es allerdings Kontingentgrenzen. Wer regelmäßig lange Meetings transkribiert, fährt mit einer lokalen Whisper-Installation am besten, da hier keine Limits gelten.

Welches kostenlose Transkriptionstool hat die beste Qualität?

OpenAI Whisper large-v3 liefert unter den kostenlosen Optionen die höchste Genauigkeit mit einer Word Error Rate von rund 5 bis 8 Prozent für Deutsch. Das entspricht einer Erkennungsrate von 92 bis 95 Prozent bei guter Audioqualität. Unter den cloudbasierten Gratistools schneiden Transkriptor und Notta in Nutzerbewertungen am besten ab.

Kann man mit Word kostenlos transkribieren?

Die Diktierfunktion in Word Online ist kostenlos und wandelt gesprochene Sprache in Echtzeit in Text um. Die erweiterte Transkriptionsfunktion mit Datei-Upload und Sprechererkennung ist allerdings nur im Microsoft 365 Business-Abo enthalten (bis 300 Minuten pro Monat). Für Unternehmen, die bereits Microsoft 365 nutzen, entstehen keine Zusatzkosten.

Wie genau ist die automatische Spracherkennung bei Dialekten?

Bei Hochdeutsch erreichen aktuelle Modelle eine Genauigkeit von über 90 Prozent. Bei starkem Dialekt oder Mundart sinkt die Erkennungsrate um 10 bis 20 Prozentpunkte. Für dialektlastige Aufnahmen empfiehlt sich eine Kombination aus automatischer Transkription und manueller Nachbearbeitung. Alternativ bieten einige kostenpflichtige Tools wie Amberscript menschliche Korrektur mit über 99 Prozent Genauigkeit.

Sind kostenlose Transkriptionstools DSGVO-konform?

Nicht automatisch. DSGVO-Konformität hängt vom Serverstandort, dem Auftragsverarbeitungsvertrag (AVV) und der Datenverarbeitung ab. Europäische Anbieter wie Amberscript (Niederlande) und Noota (Frankreich) bieten ISO-27001-Zertifizierung und EU-Datenverarbeitung. Für maximalen Datenschutz empfiehlt sich die lokale Installation von OpenAI Whisper, bei der keine Daten das Unternehmen verlassen.

Welche Dateiformate kann man kostenlos transkribieren?

Die meisten Transkriptionstools unterstützen gängige Audio- und Videoformate wie MP3, WAV, M4A, MP4, OGG und FLAC. OpenAI Whisper verarbeitet über ffmpeg praktisch jedes Audioformat. Bei cloudbasierten Tools gibt es häufig eine maximale Dateigröße von 25 bis 500 MB. Für größere Dateien bietet sich die lokale Whisper-Installation an, die keine Dateigrößenbeschränkung hat.

Brauche ich für die automatische Transkription eine Internetverbindung?

Das kommt auf das Tool an. Cloudbasierte Dienste wie Transkriptor, Notta oder Happy Scribe benötigen eine aktive Internetverbindung, da die Verarbeitung auf deren Servern stattfindet. OpenAI Whisper und Insanely Fast Whisper laufen komplett lokal und funktionieren auch ohne Internet. Für den Offline-Einsatz in sensiblen Umgebungen ist eine lokale Lösung die einzige Option.

Sie möchten KI in Ihrem Unternehmen einsetzen? Sprechen Sie uns an - wir beraten Sie unverbindlich.