multimodal

Here are 707 public repositories matching this topic...

NVIDIA / NeMo

A scalable generative AI framework built for researchers and developers working on Large Language Models, Multimodal, and Speech AI (Automatic Speech Recognition and Text-to-Speech)

machine-translation tts speech-synthesis neural-networks deeplearning speaker-recognition asr multimodal speech-translation large-language-models speaker-diariazation generative-ai

Updated Jun 26, 2024
Python

isLinXu / paper-list

Star

autoupdate paper list

reinforcement-learning classification image-generation object-detection transfer-learning optical-flow object-tracking semantic-segmentation action-recognition audio-processing pose-estimation depth-estimation anomaly-detection multimodal scene-understanding graph-neural-networks llm

Updated Jun 26, 2024
Python

modelscope / swift

Star

ms-swift: Use PEFT or Full-parameter to finetune 250+ LLMs or 35+ MLLMs. (Qwen2, GLM4, Internlm2, Yi, Llama3, Llava, MiniCPM-V, Deepseek, Baichuan2, Phi3-Vision, ...)

Updated Jun 26, 2024
Python

TobyYang7 / Llava_Qwen2

Star

Visual Instruction Tuning for Qwen2 Base Model

multimodal llm llava qwen qwen2

Updated Jun 26, 2024
Python

rerun-io / rerun

Star

Visualize streams of multimodal data. Fast, easy to use, and simple to integrate. Built in Rust using egui.

visualization python rust computer-vision cpp robotics multimodal

Updated Jun 26, 2024
Rust

louis030195 / screen-pipe

Star

Turn your screen into actions (using LLMs). Inspired by adept.ai, rewind.ai, Apple Shortcut. Rust + WASM.

machine-learning ai computer-vision ml vision multimodal llm

Updated Jun 26, 2024
Rust

InternLM / HuixiangDou

Star

HuixiangDou: Overcoming Group Chat Scenarios with LLM-based Technical Assistance

application ocr robot pipeline dsl chatbot wechat assistance lark multimodal rag llm

Updated Jun 26, 2024
Python

Generative AI suite powered by state-of-the-art models and providing advanced AI/AGI functions. It features AI personas, AGI functions, multi-model chats, text-to-image, voice, response streaming, code highlighting and execution, PDF import, presets for developers, much more. Deploy on-prem or in the cloud.

ui beam agi openai gpt mistral multimodal groq openai-api gpt-4 large-language-models stable-diffusion generative-ai chatgpt chatgpt-ui gpt-5 anthropic

Updated Jun 26, 2024
TypeScript

mrzjy / GenshinCLIP

Star

A simple open-sourced SigLIP model finetuned on Genshin Impact's image-text pairs.

pytorch deeplearning pretrained-models language-model clip multimodal genshin-impact image-text-matching image-text-retrieval openclip siglip

Updated Jun 26, 2024

bentoml / BentoML

Star

The easiest way to serve AI/ML models in production - Build Model Inference Service, LLM APIs, Multi-model Inference Graph/Pipelines, LLM/RAG apps, and more!

python machine-learning deep-learning model-serving multimodal mlops ml-engineering llm generative-ai llmops llm-serving model-inference-service llm-inference inference-platform

Updated Jun 26, 2024
Python

batmanlab / Mammo-CLIP

Star

Official Pytorch implementation of MICCAI 2024 paper (early accept, top 11%) Mammo-CLIP: A Vision Language Foundation Model to Enhance Data Efficiency and Robustness in Mammography

breast-cancer-prediction clip mammogram rsna multimodal vision-and-language efficientnet vindr rsna-breast-cancer

Updated Jun 26, 2024
Python

agentsea / surfkit

Star

A toolkit for building AI agents that use devices

machine-learning agents multimodal llm

Updated Jun 26, 2024
Python

pixeltable / pixeltable

Star

Data Infrastructure for Multimodal AI: Data, models, and orchestration in a unified declarative interface.

data-science machine-learning database ai computer-vision chatbot ml artificial-intelligence multimodal vector-database llm genai

Updated Jun 26, 2024
Python

rustic-ai / ui-components

Star

React component library for crafting user-friendly and engaging conversational experiences

chat ai reactjs mui reactjs-components conversational-ai multimodal

Updated Jun 26, 2024
JavaScript

zjunlp / MKG_Analogy

Star

[ICLR 2023] Multimodal Analogical Reasoning over Knowledge Graphs

natural-language-processing computer-vision prompt dataset knowledge-graph mars language-model kg reasoning analogy iclr multimodal pre-trained-language-models iclr2023 analogical-reasoning markg

Updated Jun 26, 2024
Python

Yangyi-Chen / Multimodal-AND-Large-Language-Models

Star

Paper list about multimodal and large language models, only used to record papers I read in the daily arxiv for personal needs.

machine-learning multimodal large-language-models general-purpose-model

Updated Jun 26, 2024

livekit / agents

Star

Build real-time multimodal AI applications 🤖🎙️📹

real-time video ai voice agents voice-assistant multimodal

Updated Jun 25, 2024
Python

ashutosh1919 / genai-posts

Sponsor

Star

Repository contains LinkedIn posts about Generative AI knowledge sharing, learning resources and research explanations.

machine-learning artificial-intelligence deeplearning multimodal llm generative-ai

Updated Jun 25, 2024

dusty-nv / NanoLLM

Star

Optimized local inference for LLMs with HuggingFace-like APIs for quantization, vision/language models, multimodal agents, speech, vector DB, and RAG.

speech multimodal rag edge-ai vector-database vision-transformer llm-inference

Updated Jun 25, 2024
Python

mlpc-ucsd / TokenCompose

Star

(CVPR 2024) 🧩 TokenCompose: Text-to-Image Diffusion with Token-level Supervision

machine-learning computer-vision artificial-intelligence image-generation text-to-image multimodal diffusion-models latent-diffusion stable-diffusion generative-ai

Updated Jun 25, 2024
Jupyter Notebook

Improve this page

Add a description, image, and links to the multimodal topic page so that developers can more easily learn about it.

Curate this topic

Add this topic to your repo

To associate your repository with the multimodal topic, visit your repo's landing page and select "manage topics."

Learn more

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

multimodal

Here are 707 public repositories matching this topic...

NVIDIA / NeMo

isLinXu / paper-list

modelscope / swift

TobyYang7 / Llava_Qwen2

rerun-io / rerun

louis030195 / screen-pipe

InternLM / HuixiangDou

enricoros / big-AGI

mrzjy / GenshinCLIP

bentoml / BentoML

batmanlab / Mammo-CLIP

agentsea / surfkit

pixeltable / pixeltable

rustic-ai / ui-components

zjunlp / MKG_Analogy

Yangyi-Chen / Multimodal-AND-Large-Language-Models

livekit / agents

ashutosh1919 / genai-posts

dusty-nv / NanoLLM

mlpc-ucsd / TokenCompose

Improve this page

Add this topic to your repo