openai-whisper-api

Name: openai-whisper-api
Author: steipete

OpenAI Audio Transcriptions API via curl; gpt-4o-transcribe, mini, diarize, or whisper-1.

INSTALLATION

npx skills add https://github.com/steipete/clawdis --skill openai-whisper-api

Run in your project or agent environment. Adjust flags if your CLI version differs.

SKILL.md

OpenAI transcriptions API

Transcribe audio through /v1/audio/transcriptions. Set OPENAI_BASE_URL for an OpenAI-compatible proxy or local gateway.

Quick start

{baseDir}/scripts/transcribe.sh /path/to/audio.m4a

Defaults:

Model: gpt-4o-transcribe

Output: <input>.txt

Useful flags

{baseDir}/scripts/transcribe.sh /path/to/audio.ogg --model gpt-4o-transcribe --out /tmp/transcript.txt

{baseDir}/scripts/transcribe.sh /path/to/audio.ogg --model gpt-4o-mini-transcribe

{baseDir}/scripts/transcribe.sh /path/to/audio.ogg --model gpt-4o-transcribe-diarize --json

{baseDir}/scripts/transcribe.sh /path/to/audio.ogg --model whisper-1

{baseDir}/scripts/transcribe.sh /path/to/audio.m4a --language en

{baseDir}/scripts/transcribe.sh /path/to/audio.m4a --prompt "Speaker names: Peter, Daniel"

{baseDir}/scripts/transcribe.sh /path/to/audio.m4a --json --out /tmp/transcript.json

Notes:

Supported upload formats include mp3, mp4, mpeg, mpga, m4a, wav, webm.

25 MB upload limit on the hosted API.

Use diarize for speaker labels; script sends chunking_strategy=auto and rejects --prompt.

API key

Set OPENAI_API_KEY, or configure it in the active OpenClaw config file ($OPENCLAW_CONFIG_PATH, default ~/.openclaw/openclaw.json). Optionally set OPENAI_BASE_URL:

{

  skills: {

    "openai-whisper-api": {

      apiKey: "OPENAI_KEY_HERE",

    },

  },

}

openai-whisper-api

SKILL.md

OpenAI transcriptions API

Quick start

Useful flags

API key

Let your agent run on any real-world website

Related skills

Stop writing automation&scrapers