Fireworks AI

Fireworks AI is a production-grade inference platform for open-source and proprietary generative models. The Fireworks API hosts Llama, DeepSeek, Qwen, Mixtral, Stable Diffusion, and other models with serverless pay-per-token, on-demand dedicated GPU, and batch deployment options, plus managed fine-tuning.

13 APIs 0 Features

AILLMInferenceMultimodalFine-tuningGPU

APIs

Fireworks Chat Completions API

OpenAI-compatible chat completions across 100+ open-source and proprietary models including Llama, DeepSeek, Qwen, and Mixtral, with streaming, function calling, and structured ...

Fireworks Completions API

Legacy text completion endpoint, OpenAI-compatible.

Fireworks Vision API

Vision-language inference for image and document understanding through chat completions.

Fireworks Embeddings API

Generate dense vector embeddings for retrieval, RAG, and semantic search using nomic, Qwen3, BGE, and other open embedding models.

Fireworks Rerank API

Cross-encoder reranking of candidate passages for higher-quality retrieval and RAG pipelines.

Fireworks Images API

Text-to-image and image-to-image generation across Stable Diffusion, FLUX, and other diffusion model families.

Fireworks Audio API

OpenAI-compatible audio transcription, translation, and TTS endpoints for Whisper and other audio models with low-latency streaming.

Fireworks Batch Inference API

Asynchronous batch inference at 50% of serverless rates for both input and output tokens.

Fireworks Fine-Tuning API

Supervised fine-tuning (LoRA and full-parameter) and reinforcement fine-tuning, with one-click deployment of fine-tuned weights at the same per-token price as base models.

Fireworks Files API

Upload and manage training datasets, batch input files, and fine-tuning artifacts.

Fireworks Models API

Lists models, deployments, and metadata across the Fireworks catalog.

Fireworks Deployments API

Provision and autoscale on-demand dedicated GPU deployments (H100, H200, B200, B300) billed per GPU-second.

Fireworks Account API

Programmatic access to account, billing, usage, and team management.

Resources

Sources

aid: fireworks-ai
url: https://raw.githubusercontent.com/api-evangelist/fireworks-ai/refs/heads/main/apis.yml
name: Fireworks AI
x-type: company
description: >-
  Fireworks AI is a production-grade inference platform for open-source and proprietary generative models. The Fireworks API hosts Llama, DeepSeek, Qwen, Mixtral, Stable Diffusion, and other models with serverless pay-per-token, on-demand dedicated GPU, and batch deployment options, plus managed fine-tuning.
image: https://kinlane-productions.s3.amazonaws.com/apis-json/apis-json-logo.jpg
tags:
  - AI
  - LLM
  - Inference
  - Multimodal
  - Fine-tuning
  - GPU
created: '2026-05-08'
modified: '2026-05-08'
specificationVersion: '0.19'
apis:
  - aid: fireworks-ai:fireworks-chat-completions-api
    name: Fireworks Chat Completions API
    tags:
      - Chat
      - Completions
      - LLM
    image: https://kinlane-productions.s3.amazonaws.com/apis-json/apis-json-logo.jpg
    humanURL: https://docs.fireworks.ai/api-reference/post-chatcompletions
    baseURL: https://api.fireworks.ai/inference/v1
    properties:
      - url: https://docs.fireworks.ai/guides/querying-text-models
        type: Documentation
      - url: https://docs.fireworks.ai/api-reference/post-chatcompletions
        type: API Reference
      - url: openapi/fireworks-ai-merged-openapi.yml
        type: OpenAPI
    description: >-
      OpenAI-compatible chat completions across 100+ open-source and proprietary models including Llama, DeepSeek, Qwen, and Mixtral, with streaming, function calling, and structured outputs.
  - aid: fireworks-ai:fireworks-completions-api
    name: Fireworks Completions API
    tags:
      - Completions
      - LLM
    image: https://kinlane-productions.s3.amazonaws.com/apis-json/apis-json-logo.jpg
    humanURL: https://docs.fireworks.ai/api-reference/post-completions
    baseURL: https://api.fireworks.ai/inference/v1
    properties:
      - url: https://docs.fireworks.ai/api-reference/post-completions
        type: API Reference
      - url: openapi/fireworks-ai-merged-openapi.yml
        type: OpenAPI
    description: >-
      Legacy text completion endpoint, OpenAI-compatible.
  - aid: fireworks-ai:fireworks-vision-api
    name: Fireworks Vision API
    tags:
      - Vision
      - Multimodal
      - Documents
    image: https://kinlane-productions.s3.amazonaws.com/apis-json/apis-json-logo.jpg
    humanURL: https://docs.fireworks.ai/guides/querying-vision-language-models
    baseURL: https://api.fireworks.ai/inference/v1
    properties:
      - url: https://docs.fireworks.ai/guides/querying-vision-language-models
        type: Documentation
      - url: openapi/fireworks-ai-merged-openapi.yml
        type: OpenAPI
    description: >-
      Vision-language inference for image and document understanding through chat completions.
  - aid: fireworks-ai:fireworks-embeddings-api
    name: Fireworks Embeddings API
    tags:
      - Embeddings
      - Vector
      - Retrieval
    image: https://kinlane-productions.s3.amazonaws.com/apis-json/apis-json-logo.jpg
    humanURL: https://docs.fireworks.ai/guides/querying-embeddings-models
    baseURL: https://api.fireworks.ai/inference/v1
    properties:
      - url: https://docs.fireworks.ai/guides/querying-embeddings-models
        type: Documentation
      - url: openapi/fireworks-ai-merged-openapi.yml
        type: OpenAPI
    description: >-
      Generate dense vector embeddings for retrieval, RAG, and semantic search using nomic, Qwen3, BGE, and other open embedding models.
  - aid: fireworks-ai:fireworks-rerank-api
    name: Fireworks Rerank API
    tags:
      - Rerank
      - Retrieval
      - RAG
    image: https://kinlane-productions.s3.amazonaws.com/apis-json/apis-json-logo.jpg
    humanURL: https://docs.fireworks.ai/guides/querying-rerank-models
    baseURL: https://api.fireworks.ai/inference/v1
    properties:
      - url: https://docs.fireworks.ai/guides/querying-rerank-models
        type: Documentation
      - url: openapi/fireworks-ai-merged-openapi.yml
        type: OpenAPI
    description: >-
      Cross-encoder reranking of candidate passages for higher-quality retrieval and RAG pipelines.
  - aid: fireworks-ai:fireworks-images-api
    name: Fireworks Images API
    tags:
      - Images
      - Generation
      - Stable Diffusion
    image: https://kinlane-productions.s3.amazonaws.com/apis-json/apis-json-logo.jpg
    humanURL: https://docs.fireworks.ai/api-reference/generate-a-new-image-from-a-text-prompt
    baseURL: https://api.fireworks.ai/inference/v1
    properties:
      - url: https://docs.fireworks.ai/guides/querying-image-language-models
        type: Documentation
      - url: https://docs.fireworks.ai/api-reference/generate-a-new-image-from-a-text-prompt
        type: API Reference
      - url: openapi/fireworks-ai-merged-openapi.yml
        type: OpenAPI
    description: >-
      Text-to-image and image-to-image generation across Stable Diffusion, FLUX, and other diffusion model families.
  - aid: fireworks-ai:fireworks-audio-api
    name: Fireworks Audio API
    tags:
      - Audio
      - Speech to Text
      - Text to Speech
      - Whisper
    image: https://kinlane-productions.s3.amazonaws.com/apis-json/apis-json-logo.jpg
    humanURL: https://docs.fireworks.ai/api-reference/audio-transcriptions
    baseURL: https://audio-prod.us-virginia-1.direct.fireworks.ai/v1
    properties:
      - url: https://docs.fireworks.ai/guides/audio
        type: Documentation
      - url: https://docs.fireworks.ai/api-reference/audio-transcriptions
        type: API Reference
      - url: openapi/fireworks-ai-merged-openapi.yml
        type: OpenAPI
    description: >-
      OpenAI-compatible audio transcription, translation, and TTS endpoints for Whisper and other audio models with low-latency streaming.
  - aid: fireworks-ai:fireworks-batch-inference-api
    name: Fireworks Batch Inference API
    tags:
      - Batch
      - Async
    image: https://kinlane-productions.s3.amazonaws.com/apis-json/apis-json-logo.jpg
    humanURL: https://docs.fireworks.ai/guides/batch-inference
    baseURL: https://api.fireworks.ai/inference/v1
    properties:
      - url: https://docs.fireworks.ai/guides/batch-inference
        type: Documentation
      - url: openapi/fireworks-ai-merged-openapi.yml
        type: OpenAPI
    description: >-
      Asynchronous batch inference at 50% of serverless rates for both input and output tokens.
  - aid: fireworks-ai:fireworks-fine-tuning-api
    name: Fireworks Fine-Tuning API
    tags:
      - Fine-Tuning
      - LoRA
      - RFT
      - Training
    image: https://kinlane-productions.s3.amazonaws.com/apis-json/apis-json-logo.jpg
    humanURL: https://docs.fireworks.ai/fine-tuning/fine-tuning-models
    baseURL: https://api.fireworks.ai/v1
    properties:
      - url: https://docs.fireworks.ai/fine-tuning/fine-tuning-models
        type: Documentation
      - url: openapi/fireworks-ai-merged-openapi.yml
        type: OpenAPI
    description: >-
      Supervised fine-tuning (LoRA and full-parameter) and reinforcement fine-tuning, with one-click deployment of fine-tuned weights at the same per-token price as base models.
  - aid: fireworks-ai:fireworks-files-api
    name: Fireworks Files API
    tags:
      - Files
      - Datasets
    image: https://kinlane-productions.s3.amazonaws.com/apis-json/apis-json-logo.jpg
    humanURL: https://docs.fireworks.ai/api-reference/files
    baseURL: https://api.fireworks.ai/v1
    properties:
      - url: https://docs.fireworks.ai/api-reference/files
        type: API Reference
      - url: openapi/fireworks-ai-merged-openapi.yml
        type: OpenAPI
    description: >-
      Upload and manage training datasets, batch input files, and fine-tuning artifacts.
  - aid: fireworks-ai:fireworks-models-api
    name: Fireworks Models API
    tags:
      - Models
      - Catalog
    image: https://kinlane-productions.s3.amazonaws.com/apis-json/apis-json-logo.jpg
    humanURL: https://docs.fireworks.ai/api-reference/list-models
    baseURL: https://api.fireworks.ai/v1
    properties:
      - url: https://docs.fireworks.ai/api-reference/list-models
        type: API Reference
      - url: openapi/fireworks-ai-merged-openapi.yml
        type: OpenAPI
    description: >-
      Lists models, deployments, and metadata across the Fireworks catalog.
  - aid: fireworks-ai:fireworks-deployments-api
    name: Fireworks Deployments API
    tags:
      - Deployments
      - On-Demand
      - GPU
    image: https://kinlane-productions.s3.amazonaws.com/apis-json/apis-json-logo.jpg
    humanURL: https://docs.fireworks.ai/guides/ondemand-deployments
    baseURL: https://api.fireworks.ai/v1
    properties:
      - url: https://docs.fireworks.ai/guides/ondemand-deployments
        type: Documentation
      - url: openapi/fireworks-ai-merged-openapi.yml
        type: OpenAPI
    description: >-
      Provision and autoscale on-demand dedicated GPU deployments (H100, H200, B200, B300) billed per GPU-second.
  - aid: fireworks-ai:fireworks-account-api
    name: Fireworks Account API
    tags:
      - Account
      - Usage
      - Billing
    image: https://kinlane-productions.s3.amazonaws.com/apis-json/apis-json-logo.jpg
    humanURL: https://docs.fireworks.ai/api-reference
    baseURL: https://api.fireworks.ai/v1
    properties:
      - url: https://docs.fireworks.ai/api-reference
        type: API Reference
      - url: openapi/fireworks-ai-merged-openapi.yml
        type: OpenAPI
    description: >-
      Programmatic access to account, billing, usage, and team management.
common:
  - type: Website
    url: https://fireworks.ai/
  - type: Documentation
    url: https://docs.fireworks.ai/
  - type: Plans
    url: plans/fireworks-ai-plans-pricing.yml
  - type: RateLimits
    url: rate-limits/fireworks-ai-rate-limits.yml
  - type: FinOps
    url: finops/fireworks-ai-finops.yml
maintainers:
  - FN: Kin Lane
    email: [email protected]