📄 Foundation Models

Paper List

RecurrentGemma: Moving Past Transformers for Efficient Open Language Models （2024.04.11）

Aleksandar Botev, Soham De, Samuel L Smith, Anushan Fernando, George Muraru, etc

OpenBias: Open-set Bias Detection in Text-to-Image Generative Models （2024.04.11）

Moreno D'Incà, E. Peruzzo, Massimiliano Mancini, Dejia Xu, Vidit Goel, etc

Scaling Up Video Summarization Pretraining with Large Language Models （2024.04.04）

Dawit Mureja Argaw, Seunghyun Yoon, Fabian Caba Heilbron, Hanieh Deilamsalehy, Trung Bui, etc

Pre-trained Vision and Language Transformers Are Few-Shot Incremental Learners （2024.04.02）

Keon-Hee Park, Kyungwoo Song, Gyeong-Moon Park

MTLoRA: A Low-Rank Adaptation Approach for Efficient Multi-Task Learning （2024.03.29）

Ahmed A. Agiza, Marina Neseem, S. Reda . - 【arXiv.org】

ReALM: Reference Resolution As Language Modeling （2024.03.29）

Joel Ruben Antony Moniz, Soundarya Krishnan, Melis Ozyildirim, Prathamesh Saraf, Halim Cagri Ates, etc . - 【arXiv.org】

RSMamba: Remote Sensing Image Classification with State Space Model （2024.03.28）

Keyan Chen, Bo-Ying Chen, Chenyang Liu, Wenyuan Li, Zhengxia Zou, etc . - 【arXiv.org】

DreamLIP: Language-Image Pre-training with Long Captions （2024.03.25）

Kecheng Zheng, Yifei Zhang, Wei Wu, Fan Lu, Shuailei Ma, etc

Instruction Multi-Constraint Molecular Generation Using a Teacher-Student Large Language Model （2024.03.20）

Peng Zhou, Jianmin Wang, Chunyan Li, Zixu Wang, Yiping Liu, etc

VideoMamba: State Space Model for Efficient Video Understanding （2024.03.11）

Kunchang Li, Xinhao Li, Yi Wang, Yinan He, Yali Wang, etc

Mamba4Rec: Towards Efficient Sequential Recommendation with Selective State Space Models （2024.03.06）

Chengkai Liu, Jianghao Lin, Jianling Wang, Hanzhou Liu, James Caverlee

Griffin: Mixing Gated Linear Recurrences with Local Attention for Efficient Language Models （2024.02.29）

Soham De, Samuel L. Smith, Anushan Fernando, Aleksandar Botev, George Cristian-Muraru, etc

LeMo-NADe: Multi-Parameter Neural Architecture Discovery with LLMs （2024.02.28）

Md Hafizur Rahman, Prabuddha Chakraborty

LoRA-SP: Streamlined Partial Parameter Adaptation for Resource-Efficient Fine-Tuning of Large Language Models （2024.02.28）

Yichao Wu, Yafei Xiang, Shuning Huo, Yulu Gong, Penghao Liang

GISTEmbed: Guided In-sample Selection of Training Negatives for Text Embedding Fine-tuning （2024.02.26）

Aivin V. Solatorio . - 【arXiv.org】

Set the Clock: Temporal Alignment of Pretrained Language Models （2024.02.26）

Bowen Zhao, Zander Brumbaugh, Yizhong Wang, Hanna Hajishirzi, Noah A. Smith . - 【arXiv.org】

Generative Pretrained Hierarchical Transformer for Time Series Forecasting （2024.02.26）

Zhiding Liu, Jiqian Yang, Mingyue Cheng, Yucong Luo, Zhi Li

GROUNDHOG: Grounding Large Language Models to Holistic Segmentation （2024.02.26）

Yichi Zhang, Ziqiao Ma, Xiaofeng Gao, Suhaila Shakiah, Qiaozi Gao, etc

Genie: Generative Interactive Environments （2024.02.23）

Jake Bruce, Michael Dennis, Ashley Edwards, Jack Parker-Holder, Yuge Shi, etc

Self-Play Fine-Tuning of Diffusion Models for Text-to-Image Generation （2024.02.15）

Huizhuo Yuan, Zixiang Chen, Kaixuan Ji, Quanquan Gu . - 【arXiv.org】

Efficient Stagewise Pretraining via Progressive Subnetworks （2024.02.08）

Abhishek Panigrahi, Nikunj Saunshi, Kaifeng Lyu, Sobhan Miryoosefi, Sashank J. Reddi, etc . - 【arXiv.org】

UPDP: A Unified Progressive Depth Pruner for CNN and Vision Transformer （2024.01.12）

Ji Liu, Dehua Tang, Yuanxian Huang, Li Zhang, Xiaocheng Zeng, etc . - 【arXiv.org】

MagicVideo-V2: Multi-Stage High-Aesthetic Video Generation （2024.01.09）

Weimin Wang, Jiawei Liu, Zhijie Lin, Jiangqiao Yan, Shuo Chen, etc . - 【arXiv.org】

Task Oriented Dialogue as a Catalyst for Self-Supervised Automatic Speech Recognition （2024.01.04）

David M. Chan, Shalini Ghosh, Hitesh Tulsiani, A. Rastrow, Bjorn Hoffmeister . - 【arXiv.org】

Instruct-Imagen: Image Generation with Multi-modal Instruction （2024.01.03）

Hexiang Hu, Kelvin C.K. Chan, Yu-Chuan Su, Wenhu Chen, Yandong Li, etc . - 【arXiv.org】

EmbodiedScan: A Holistic Multi-Modal 3D Perception Suite Towards Embodied AI （2023.12.26）

Tai Wang, Xiaohan Mao, Chenming Zhu, Runsen Xu, Ruiyuan Lyu, etc . - 【arXiv.org】

Time is Encoded in the Weights of Finetuned Language Models （2023.12.20）

Kai Nylund, Suchin Gururangan, Noah A. Smith

Photorealistic Video Generation with Diffusion Models （2023.12.11）

Agrim Gupta, Lijun Yu, Kihyuk Sohn, Xiuye Gu, Meera Hahn, etc

Mamba: Linear-Time Sequence Modeling with Selective State Spaces （2023.12.01）

Albert Gu, Tri Dao

Minimizing Factual Inconsistency and Hallucination in Large Language Models （2023.11.23）

I. Muneeswaran, Shreya Saxena, Siva Prasad, M. V. S. Prakash, Advaith Shankar, etc . - 【arXiv.org】

White-Box Transformers via Sparse Rate Reduction: Compression Is All There Is? （2023.11.22）

Yaodong Yu, Sam Buchanan, Druv Pai, Tianzhe Chu, Ziyang Wu, etc . - 【arXiv.org】

Learning skillful medium-range global weather forecasting. （2023.11.14）

Remi Lam, Alvaro Sanchez-Gonzalez, Matthew Willson, Peter Wirnsberger, Meire Fortunato, etc . - 【Science】

Chat-UniVi: Unified Visual Representation Empowers Large Language Models with Image and Video Understanding （2023.11.14）

Peng Jin, Ryuichi Takanobu, Caiwan Zhang, Xiaochun Cao, Li Yuan . - 【arXiv.org】

SpectralGPT: Spectral Foundation Model （2023.11.13）

D. Hong, Bing Zhang, Xuyang Li, Yuxuan Li, Chenyu Li, etc . - 【arXiv.org】

Social Motion Prediction with Cognitive Hierarchies （2023.11.08）

Wentao Zhu, Jason Qin, Yuke Lou, Hang Ye, Xiaoxuan Ma, etc . - 【arXiv.org】

Pre-training LLMs using human-like development data corpus （2023.11.08）

Khushi Bhardwaj, Raj Sanjay Shah, Sashank Varma . - 【arXiv.org】

mPLUG-Owl2: Revolutionizing Multi-modal Large Language Model with Modality Collaboration （2023.11.07）

Qinghao Ye, Haiyang Xu, Jiabo Ye, Mingshi Yan, Anwen Hu, etc . - 【arXiv.org】

Scalable and Transferable Black-Box Jailbreaks for Language Models via Persona Modulation （2023.11.06）

Rusheb Shah, Quentin Feuillade--Montixi, Soroush Pour, Arush Tagade, Stephen Casper, etc . - 【arXiv.org】

Ziya2: Data-centric Learning is All LLMs Need （2023.11.06）

Ruyi Gan, Ziwei Wu, Renliang Sun, Junyu Lu, Xiaojun Wu, etc . - 【arXiv.org】

Levels of AGI: Operationalizing Progress on the Path to AGI （2023.11.04）

Meredith Ringel Morris, Jascha Narain Sohl-Dickstein, Noah Fiedel, T. Warkentin, Allan Dafoe, etc . - 【arXiv.org】

CodeFusion: A Pre-trained Diffusion Model for Code Generation （2023.10.26）

Mukul Singh, J. Cambronero, Sumit Gulwani, Vu Le, Carina Negreanu, etc . - 【arXiv.org】

3D-GPT: Procedural 3D Modeling with Large Language Models （2023.10.19）

Chunyi Sun, Junlin Han, Weijian Deng, Xinlong Wang, Zishan Qin, etc . - 【arXiv.org】

The Foundation Model Transparency Index （2023.10.19）

Rishi Bommasani, Kevin Klyman, Shayne Longpre, Sayash Kapoor, Nestor Maslej, etc

Language Models Represent Space and Time （2023.10.03）

Wes Gurnee, Max Tegmark

Chatmap : Large Language Model Interaction with Cartographic Data （2023.09.28）

Eren Unlu . - 【arXiv.org】

Effective Distillation of Table-based Reasoning Ability from LLMs （2023.09.22）

Bohao Yang, Chen Tang, Kangning Zhao, Chenghao Xiao, Chenghua Lin . - 【arXiv.org】

Q-Transformer: Scalable Offline Reinforcement Learning via Autoregressive Q-Functions （2023.09.18）

Yevgen Chebotar, Q. Vuong, A. Irpan, Karol Hausman, F. Xia, etc . - 【arXiv.org】

Replacing softmax with ReLU in Vision Transformers （2023.09.15）

Mitchell Wortsman, Jaehoon Lee, Justin Gilmer, Simon Kornblith . - 【arXiv.org】

ZGaming: Zero-Latency 3D Cloud Gaming by Image Prediction （2023.09.01）

Jiangkai Wu, Yu Guan, Qi Mao, Yong Cui, Zongming Guo, etc . - 【Proceedings of the ACM SIGCOMM 2023 Conference】

Explaining Vision and Language through Graphs of Events in Space and Time （2023.08.29）

Mihai Masala, Nicolae Cudlenco, Traian Rebedea, Marius Leordeanu . - 【arXiv.org】

PE-MED: Prompt Enhancement for Interactive Medical Image Segmentation （2023.08.26）

Ao Chang, Xing Tao, Xin Yang, Yuhao Huang, Xinrui Zhou, etc . - 【arXiv.org】

SkipcrossNets: Adaptive Skip-cross Fusion for Road Detection （2023.08.24）

Xinyu Zhang, Yan Gong, Zhiwei Li, Xinchen Gao, Dafeng Jin, etc . - 【arXiv.org】

SeqGPT: An Out-of-the-box Large Language Model for Open Domain Sequence Understanding （2023.08.21）

Tianyu Yu, Chengyue Jiang, Chao Lou, Shen Huang, Xiaobin Wang, etc . - 【arXiv.org】

Prompt Switch: Efficient CLIP Adaptation for Text-Video Retrieval （2023.08.15）

Chaorui Deng, Qi Chen, Pengda Qin, Dave Zhenyu Chen, Qi Wu . - 【arXiv.org】

VisIT-Bench: A Benchmark for Vision-Language Instruction Following Inspired by Real-World Use （2023.08.12）

Yonatan Bitton, Hritik Bansal, Jack Hessel, Rulin Shao, Wanrong Zhu, etc . - 【arXiv.org】

Accelerating LLM Inference with Staged Speculative Decoding （2023.08.08）

Benjamin Spector, Christal Re . - 【arXiv.org】

3D-VisTA: Pre-trained Transformer for 3D Vision and Text Alignment （2023.08.08）

Ziyu Zhu, Xiaojian Ma, Yixin Chen, Zhidong Deng, Siyuan Huang, etc . - 【arXiv.org】

Food-500 Cap: A Fine-Grained Food Caption Benchmark for Evaluating Vision-Language Models （2023.08.06）

Zheng Ma, Mianzhi Pan, Wen-Lan Wu, Ka Leong Cheng, Jianbing Zhang, etc . - 【arXiv.org】

Pre-Trained Large Language Models for Industrial Control （2023.08.06）

Lei Song, Chuheng Zhang, Li Zhao, Jiang Bian . - 【arXiv.org】

Training Large-scale Foundation Models on Emerging AI Chips （2023.08.04）

Aashiq Muhamed, Christian Bock, R. Solanki, Youngsuk Park, Yida Wang, etc . - 【Knowledge Discovery and Data Mining】

FLatten Transformer: Vision Transformer using Focused Linear Attention （2023.08.01）

Dongchen Han, Xuran Pan, Yizeng Han, Shiji Song, Gao Huang . - 【arXiv.org】

Med-Flamingo: a Multimodal Medical Few-shot Learner （2023.07.27）

Michael Moor, Qian Huang, Shirley Wu, Michihiro Yasunaga, C. Zakka, etc . - 【arXiv.org】

Universal and Transferable Adversarial Attacks on Aligned Language Models （2023.07.27）

Andy Zou, Zifan Wang, J. Z. Kolter, Matt Fredrikson . - 【arXiv.org】

CARTIER: Cartographic lAnguage Reasoning Targeted at Instruction Execution for Robots （2023.07.21）

Nikhil Kakodkar, D. Rivkin, Bobak H. Baghi, F. Hogan, Gregory Dudek . - 【arXiv.org】

MasterKey: Automated Jailbreak Across Multiple Large Language Model Chatbots （2023.07.16）

Gelei Deng, Yi Liu, Yuekang Li, Kailong Wang, Ying Zhang, etc

Mitigating the Learning Bias towards Repetition by Self-Contrastive Training for Open-Ended Generation （2023.07.04）

Jian Guan, Minlie Huang . - 【Annual Meeting of the Association for Computational Linguistics】

Kosmos-2: Grounding Multimodal Large Language Models to the World （2023.06.26）

Zhiliang Peng, Wenhui Wang, Li Dong, Y. Hao, Shaohan Huang, etc . - 【arXiv.org】

AudioPaLM: A Large Language Model That Can Speak and Listen （2023.06.22）

Paul K. Rubenstein, Chulayuth Asawaroengchai, D. Nguyen, Ankur Bapna, Zalán Borsos, etc . - 【arXiv.org】

Unleashing the AI revolution: exploring the capabilities and challenges of large language models and text‐to‐image AI programs （2023.06.17）

A. Youssef . - 【Ultrasound in Obstetrics and Gynecology】

PIXIU: A Large Language Model, Instruction Data and Evaluation Benchmark for Finance （2023.06.08）

Qianqian Xie, Weiguang Han, Xiao Zhang, Yanzhao Lai, Min Peng, etc . - 【arXiv.org】

M3Exam: A Multilingual, Multimodal, Multilevel Benchmark for Examining Large Language Models （2023.06.08）

Wenxuan Zhang, Sharifah Mahani Aljunied, Chang Gao, Yew Ken Chia, Lidong Bing . - 【arXiv.org】

Simple and Controllable Music Generation （2023.06.08）

Jade Copet, Felix Kreuk, Itai Gat, Tal Remez, David Kant, etc . - 【arXiv.org】

LLM-Blender: Ensembling Large Language Models with Pairwise Ranking and Generative Fusion （2023.06.05）

Dongfu Jiang, Xiang Ren, Bill Yuchen Lin . - 【arXiv.org】

DiffRate : Differentiable Compression Rate for Efficient Vision Transformers （2023.05.29）

Mengzhao Chen, Wenqi Shao, Peng Xu, Mingbao Lin, Kaipeng Zhang, etc . - 【arXiv.org】

Dynamic Context Pruning for Efficient and Interpretable Autoregressive Transformers （2023.05.25）

Sotiris Anagnostidis, Dario Pavllo, L. Biggio, Lorenzo Noci, Aurélien Lucchi, etc . - 【arXiv.org】

On Degrees of Freedom in Defining and Testing Natural Language Understanding （2023.05.24）

Saku Sugawara, Shun Tsugita

Structural Ambiguity and its Disambiguation in Language Model Based Parsers: the Case of Dutch Clause Relativization （2023.05.24）

Gijs Wijnholds, Michael Moortgat

Mitigating Temporal Misalignment by Discarding Outdated Facts （2023.05.24）

Michael J.Q. Zhang, Eunsol Choi

Vision + Language Applications: A Survey （2023.05.24）

Yutong Zhou, Nobutaka Shimada

Towards Revealing the Mystery behind Chain of Thought: a Theoretical Perspective （2023.05.24）

Guhao Feng, Yuntian Gu, Bohang Zhang, Haotian Ye, Di He, etc

Balancing the Picture: Debiasing Vision-Language Datasets with Synthetic Contrast Sets （2023.05.24）

Brandon Smith, Miguel Farinha, Siobhan Mackenzie Hall, Hannah Rose Kirk, Aleksandar Shtedritski, etc

Unit-based Speech-to-Speech Translation Without Parallel Data （2023.05.24）

Anuj Diwan, Anirudh Srinivasan, David F. Harwath, Eunsol Choi

AV-TranSpeech: Audio-Visual Robust Speech-to-Speech Translation （2023.05.24）

Rongjie Huang, Huadai Liu, Xize Cheng, Yi Ren, Linjun Li, etc

A Neural Space-Time Representation for Text-to-Image Personalization （2023.05.24）

Yuval Alaluf, Elad Richardson, Gal Metzer, Daniel Cohen-Or

Peek Across: Improving Multi-Document Modeling via Cross-Document Question-Answering （2023.05.24）

Avi Caciularu, Matthew E. Peters, Jacob Goldberger, Ido Dagan, Arman Cohan

SAMScore: A Semantic Structural Similarity Metric for Image Translation Evaluation （2023.05.24）

Yunxiang Li, Meixu Chen, Wenxuan Yang, Kai Wang, Jun Ma, etc

Context-Aware Transformer Pre-Training for Answer Sentence Selection （2023.05.24）

Luca Di Liello, Siddhant Garg, Alessandro Moschitti

A Tale of Two Features: Stable Diffusion Complements DINO for Zero-Shot Semantic Correspondence （2023.05.24）

Junyi Zhang, Charles Herrmann, Junhwa Hur, Luisa Polania Cabrera, Varun Jampani, etc

Visual Programming for Text-to-Image Generation and Evaluation （2023.05.24）

Jaemin Cho, Abhay Zala, Mohit Bansal

Towards Foundation Models for Relational Databases [Vision Paper] （2023.05.24）

Liane Vogel, Benjamin Hilprecht, Carsten Binnig

MultiFusion: Fusing Pre-Trained Models for Multi-Lingual, Multi-Modal Image Generation （2023.05.24）

Marco Bellagente, Manuel Brack, Hannah Teufel, Felix Friedrich, Bjorn Deiseroth, etc

ViTMatte: Boosting Image Matting with Pretrained Plain Vision Transformers （2023.05.24）

Jingfeng Yao, Xinggang Wang, Shusheng Yang, Baoyuan Wang

Winner-Take-All Column Row Sampling for Memory Efficient Adaptation of Language Model （2023.05.24）

Zirui Liu, Guanchu Wang, Shaochen Zhong, Zhaozhuo Xu, Daochen Zha, etc

LMs with a Voice: Spoken Language Modeling beyond Speech Tokens （2023.05.24）

Eliya Nachmani, Alon Levkovitch, Julian Salazar, Chulayutsh Asawaroengchai, Soroosh Mariooryad, etc

Robust Classification via a Single Diffusion Model （2023.05.24）

Huanran Chen, Yinpeng Dong, Zhengyi Wang, Xiao Yang, Chengqi Duan, etc

Multi-modal Machine Learning for Vehicle Rating Predictions Using Image, Text, and Parametric Data （2023.05.24）

Hanqi Su, Binyang Song, Faez Ahmed

L-CAD: Language-based Colorization with Any-level Descriptions （2023.05.24）

Zheng Chang, Shuchen Weng, Pei Zhang, Yu Li, Si Li, etc

DiffBlender: Scalable and Composable Multimodal Text-to-Image Diffusion Models （2023.05.24）

Sungnyun Kim, Junsoo Lee, Kibeom Hong, Daesik Kim, Namhyuk Ahn

Pre-training Multi-party Dialogue Models with Latent Discourse Inference （2023.05.24）

Yiyang Li, Xinting Huang, Wei Bi, Hai Zhao

Deceptive-NeRF: Enhancing NeRF Reconstruction using Pseudo-Observations from Diffusion Models （2023.05.24）

Xinhang Liu, Shiu-hong Kao, Jiaben Chen, Yu-Wing Tai, Chi-Keung Tang

Fourier Transformer: Fast Long Range Modeling by Removing Sequence Redundancy with FFT Operator （2023.05.24）

Ziwei He, Meng Yang, Minwei Feng, Jingcheng Yin, Xinbing Wang, etc

CSTS: Conditional Semantic Textual Similarity （2023.05.24）

Ameet Deshpande, Carlos E. Jimenez, Howard Chen, Vishvak S. Murahari, Victoria Graf, etc

STAR: Boosting Low-Resource Event Extraction by Structure-to-Text Data Generation with Large Language Models （2023.05.24）

Mingyu Derek Ma, Xiaoxuan Wang, Po-Nien Kung, P. Jeffrey Brantingham, Nanyun Peng, etc

Contrastive Learning of Sentence Embeddings from Scratch （2023.05.24）

Junlei Zhang, Zhenzhong Lan, Junxian He

Meta-Learning Online Adaptation of Language Models （2023.05.24）

Nathan J. Hu, Eric Mitchell, Christopher D. Manning, Chelsea Finn

Who Wrote this Code? Watermarking for Code Generation （2023.05.24）

Taehyun Lee, Seokhee Hong, Jaewoo Ahn, Ilgee Hong, Hwaran Lee, etc

Reasoning over Hierarchical Question Decomposition Tree for Explainable Question Answering （2023.05.24）

Jiajie Zhang, Shulin Cao, Tingjia Zhang, Xin Lv, Jiaxin Shi, etc

Understanding Arithmetic Reasoning in Language Models using Causal Mediation Analysis （2023.05.24）

Alessandro Stolfo, Yonatan Belinkov, Mrinmaya Sachan

Ranger: A Toolkit for Effect-Size Based Multi-Task Evaluation （2023.05.24）

Mete Sertkan, Sophia Althammer, Sebastian Hofstatter

Ghostbuster: Detecting Text Ghostwritten by Large Language Models （2023.05.24）

Vivek Verma, Eve Fleisig, Nicholas Tomlin, Dan Klein

Generating Faithful Synthetic Data with Large Language Models: A Case Study in Computational Social Science （2023.05.24）

Veniamin Veselovsky, Manoel Horta Ribeiro, Akhil Arora, Martin Josifoski, Ashton Anderson, etc

Active Learning for Natural Language Generation （2023.05.24）

Yotam Perlitz, Ariel Gera, Michal Shmueli-Scheuer, Dafna Sheinwald, Noam Slonim, etc

SmartTrim: Adaptive Tokens and Parameters Pruning for Efficient Vision-Language Models （2023.05.24）

Zekun Wang, Jingchang Chen, Wangchunshu Zhou, Ming Liu, Bing Qin

How to Distill your BERT: An Empirical Study on the Impact of Weight Initialisation and Distillation Objectives （2023.05.24）

Xinpeng Wang, Leonie Weissweiler, Hinrich Schutze, Barbara Plank

ChatAgri: Exploring Potentials of ChatGPT on Cross-linguistic Agricultural Text Classification （2023.05.24）

Biao Zhao, Weiqiang Jin, Javier Del Ser, Guang Yang

Cheap and Quick: Efficient Vision-Language Instruction Tuning for Large Language Models （2023.05.24）

Gen Luo, Yiyi Zhou, Tianhe Ren, Shengxin Chen, Xiaoshuai Sun, etc

Measuring Faithful and Plausible Visual Grounding in VQA （2023.05.24）

Daniel Reich, Felix Putze, Tanja Schultz

Unlocking Temporal Question Answering for Large Language Models Using Code Execution （2023.05.24）

Xingxuan Li, Liying Cheng, Qingyu Tan, Hwee Tou Ng, Shafiq Joty, etc

Bactrian-X : A Multilingual Replicable Instruction-Following Model with Low-Rank Adaptation （2023.05.24）

Haonan Li, Fajri Koto, Minghao Wu, Alham Fikri Aji, Timothy Baldwin

Injecting Knowledge into Biomedical Pre-trained Models via Polymorphism and Synonymous Substitution （2023.05.24）

Hongbo Zhang, Xiang Wan, Benyou Wang

LLMDet: A Large Language Models Detection Tool （2023.05.24）

Kangxi Wu, Liang Pang, Huawei Shen, Xueqi Cheng, Tat-Seng Chua

The Art of SOCRATIC QUESTIONING: Zero-shot Multimodal Reasoning with Recursive Thinking and Self-Questioning （2023.05.24）

Jingyuan Qi, Zhiyang Xu, Ying Shen, Minqian Liu, Di Jin, etc

Reasoning with Language Model is Planning with World Model （2023.05.24）

Shibo Hao, Yi Gu, Haodi Ma, Joshua Jiahua Hong, Zhen Wang, etc

MuLER: Detailed and Scalable Reference-based Evaluation （2023.05.24）

Taelin Karidi, Leshem Choshen, Gal Patel, Omri Abend

Large Language Models are Effective Table-to-Text Generators, Evaluators, and Feedback Providers （2023.05.24）

Yilun Zhao, Haowei Zhang, Shengyun Si, Linyong Nan, Xiangru Tang, etc

Non-adversarial Robustness of Deep Learning Methods for Computer Vision （2023.05.24）

Gorana Goji'c, Vladimir Vincan, Ognjen Kundavcina, Dragivsa Mivskovi'c, Dinu Dragan

Improving Factuality of Abstractive Summarization without Sacrificing Summary Quality （2023.05.24）

Tanay Dixit, Fei Wang, Muhao Chen

Sampling-based Uncertainty Estimation for an Instance Segmentation Network （2023.05.24）

Florian Heidecker, Ahmad El-Khateeb, Bernhard Sick

OverPrompt: Enhancing ChatGPT Capabilities through an Efficient In-Context Learning Approach （2023.05.24）

Jiazheng Li, Runcong Zhao, Yulan He, Lin Gui

MMNet: Multi-Mask Network for Referring Image Segmentation （2023.05.24）

Yichen Yan, Xingjian He, Wenxuan Wan, Jing Liu

Tricking LLMs into Disobedience: Understanding, Analyzing, and Preventing Jailbreaks （2023.05.24）

Abhinav Rao, Sachin Vashistha, Atharva Naik, Somak Aditya, Monojit Choudhury

Editing Commonsense Knowledge in GPT （2023.05.24）

Anshita Gupta, Debanjan Mondal, Akshay Krishna Sheshadri, Wenlong Zhao, Xiang Lorraine Li, etc

Focus Your Attention (with Adaptive IIR Filters) （2023.05.24）

Shahar Lutati, Itamar Zimerman, Lior Wolf

Cross-lingual Data Augmentation for Document-grounded Dialog Systems in Low Resource Languages （2023.05.24）

Qi Gou, Zehua Xia, Wen-Hau Du

Trade-Offs Between Fairness and Privacy in Language Modeling （2023.05.24）

Cleo Matzken, Steffen Eger, Ivan Habernal

Frugal Prompting for Dialog Models （2023.05.24）

Bishal Santra, Sakya Basak, Abhinandan De, Manish Gupta, Pawan Goyal

Leveraging Pre-trained Large Language Models to Construct and Utilize World Models for Model-based Task Planning （2023.05.24）

L. Guan, Karthik Valmeekam, Sarath Sreedharan, Subbarao Kambhampati

M4: Multi-generator, Multi-domain, and Multi-lingual Black-Box Machine-Generated Text Detection （2023.05.24）

Yuxia Wang, Jonibek Mansurov, Petar Ivanov, Jinyan Su, Artem Shelmanov, etc

PIVOINE: Instruction Tuning for Open-world Information Extraction （2023.05.24）

Keming Lu, Xiaoman Pan, Kaiqiang Song, Hongming Zhang, Dong Yu, etc

Text encoders are performance bottlenecks in contrastive vision-language models （2023.05.24）

Amita Kamath, Jack Hessel, Kai-Wei Chang

HARD: Hard Augmentations for Robust Distillation （2023.05.24）

Arne F. Nix, Max F. Burg, Fabian H Sinz

Privacy Implications of Retrieval-Based Language Models （2023.05.24）

Yangsibo Huang, Samyak Gupta, Zexuan Zhong, Kai Li, Danqi Chen

Interpretable by Design Visual Question Answering （2023.05.24）

Xingyu Fu, Ben Zhou, Sihao Chen, Mark Yatskar, D. Roth

Leveraging GPT-4 for Automatic Translation Post-Editing （2023.05.24）

Vikas Raunak, Amr Sharaf, Hany Hassan Awadallah, Arul Menezes

ClusterLLM: Large Language Models as a Guide for Text Clustering （2023.05.24）

Yuwei Zhang, Zihan Wang, Jingbo Shang

CAR: Conceptualization-Augmented Reasoner for Zero-Shot Commonsense Question Answering （2023.05.24）

Weiqi Wang, Tianqing Fang, Wenxuan Ding, Baixuan Xu, Xin Liu, etc

Pre-RMSNorm and Pre-CRMSNorm Transformers: Equivalent and Efficient Pre-LN Transformers （2023.05.24）

Zixuan Jiang, Jiaqi Gu, Hanqing Zhu, D. Pan

SWAMP: Sparse Weight Averaging with Multiple Particles for Iterative Magnitude Pruning （2023.05.24）

Moonseok Choi, Hyungi Lee, Giung Nam, Juho Lee

Predicting Token Impact Towards Efficient Vision Transformer （2023.05.24）

Hong Wang, Su Yang, Xiaoke Huang, Weishan Zhang

ComSL: A Composite Speech-Language Model for End-to-End Speech-to-Text Translation （2023.05.24）

Chenyang Le, Yao Qian, Long Zhou, Shujie Liu, Michael Zeng, etc

NuScenes-QA: A Multi-modal Visual Question Answering Benchmark for Autonomous Driving Scenario （2023.05.24）

Tianwen Qian, Jingjing Chen, Linhai Zhuo, Yang Jiao, Yu-Gang Jiang

Towards Few-shot Entity Recognition in Document Images: A Graph Neural Network Approach Robust to Image Manipulation （2023.05.24）

Prashant Krishnan, Zilong Wang, Yangkun Wang, Jingbo Shang

Pre-training Intent-Aware Encoders for Zero- and Few-Shot Intent Classification （2023.05.24）

Mujeen Sung, James Gung, Elman Mansimov, Nikolaos Pappas, Raphael Shu, etc

Machine Reading Comprehension using Case-based Reasoning （2023.05.24）

Dung Thai, Dhruv Agarwal, Mudit Chaudhary, R. Das, M. Zaheer, etc

Debiasing Made State-of-the-art: Revisiting the Simple Seed-based Weak Supervision for Text Classification （2023.05.24）

Chengyu Dong, Zihan Wang, Jingbo Shang

Text Conditional Alt-Text Generation for Twitter Images （2023.05.24）

Nikita Srivatsan, Sofia Samaniego, Omar Florez, Taylor Berg-Kirkpatrick

A Controllable QA-based Framework for Decontextualization （2023.05.24）

Benjamin Newman, Luca Soldaini, Raymond Fok, Arman Cohan, Kyle Lo

SSD-2: Scaling and Inference-time Fusion of Diffusion Language Models （2023.05.24）

Xiaochuang Han, Sachin Kumar, Yulia Tsvetkov, Marjan Ghazvininejad

Dual Path Transformer with Partition Attention （2023.05.24）

Zhengkai Jiang, Liang Liu, Jiangning Zhang, Yabiao Wang, Mingang Chen, etc

UniChart: A Universal Vision-language Pretrained Model for Chart Comprehension and Reasoning （2023.05.24）

Ahmed Masry, Parsa Kavehzadeh, Xuan Long Do, Enamul Hoque, Shafiq Joty

SUVR: A Search-Based Approach to Unsupervised Visual Representation Learning （2023.05.24）

Yizhan Xu, Chih-Yao Chen, Cheng Li . - 【IEEE International Conference on Acoustics, Speech, and Signal Processing】

ChatFace: Chat-Guided Real Face Editing via Diffusion Latent Space Manipulation （2023.05.24）

Dongxu Yue, Qin Guo, Munan Ning, Jiaxi Cui, Yuesheng Zhu, etc

Trusting Your Evidence: Hallucinate Less with Context-aware Decoding （2023.05.24）

Weijia Shi, Xiaochuang Han, M. Lewis, Yulia Tsvetkov, Luke Zettlemoyer, etc

BinaryViT: Towards Efficient and Accurate Binary Vision Transformers （2023.05.24）

Junrui Xiao, Zhikai Li, Lianwei Yang, Qingyi Gu

In-Context Demonstration Selection with Cross Entropy Difference （2023.05.24）

Dan Iter, Reid Pryzant, Ruochen Xu, Shuohang Wang, Yang Liu, etc

GlobalBench: A Benchmark for Global Progress in Natural Language Processing （2023.05.24）

Y. Song, Catherine Cui, Simran Khanuja, Pengfei Liu, FAHIM FAISAL, etc

The student becomes the master: Matching GPT3 on Scientific Factual Error Correction （2023.05.24）

Dhananjay Ashok, Atharva Kulkarni, Hai Pham, Barnab'as P'oczos

PruMUX: Augmenting Data Multiplexing with Model Compression （2023.05.24）

Yushan Su, Vishvak S. Murahari, Karthik Narasimhan, Kai Li

Flan-MoE: Scaling Instruction-Finetuned Language Models with Sparse Mixture of Experts （2023.05.24）

Sheng Shen, Le Hou, Yanqi Zhou, Nan Du, Shayne Longpre, etc

SELFOOD: Self-Supervised Out-Of-Distribution Detection via Learning to Rank （2023.05.24）

Dheeraj Mekala, Adithya Samavedhi, Chengyu Dong, Jingbo Shang

A Causal View of Entity Bias in (Large) Language Models （2023.05.24）

Fei Wang, Wenjie Mo, Yiwei Wang, Wenxuan Zhou, Muhao Chen

Fusion-in-T5: Unifying Document Ranking Signals for Improved Information Retrieval （2023.05.24）

S. Yu, Chenghao Fan, Chenyan Xiong, David Jin, Zhiyuan Liu, etc

Emergent inabilities? Inverse scaling over the course of pretraining （2023.05.24）

James A. Michaelov, B. Bergen

Optimal Linear Subspace Search: Learning to Construct Fast and High-Quality Schedulers for Diffusion Models （2023.05.24）

Zhongjie Duan, Chengyu Wang, Cen Chen, Jun Huang, Weining Qian

T1: Scaling Diffusion Probabilistic Fields to High-Resolution on Unified Visual Modalities （2023.05.24）

Kangfu Mei, Mo Zhou, Vishal M. Patel

InteractiveIE: Towards Assessing the Strength of Human-AI Collaboration in Improving the Performance of Information Extraction （2023.05.24）

Ishani Mondal, Michelle Yuan, N Anandhavelu, Aparna Garimella, Francis Ferraro, etc

Dealing with Cross-Task Class Discrimination in Online Continual Learning （2023.05.24）

Yiduo Guo, Bing Liu, Dongyan Zhao

Denoising Bottleneck with Mutual Information Maximization for Video Multimodal Fusion （2023.05.24）

Shaoxaing Wu, Damai Dai, Ziwei Qin, Tianyu Liu, Binghuai Lin, etc

A Joint Time-frequency Domain Transformer for Multivariate Time Series Forecasting （2023.05.24）

Yushu Chen, Shengzhuo Liu, Jinzhe Yang, Hao Jing, Wenlai Zhao, etc

Meta-review Generation with Checklist-guided Iterative Introspection （2023.05.24）

Qi Zeng, Mankeerat S. Sidhu, Hou Pong Chan, Lu Wang, Heng Ji

Reinforcement Learning finetuned Vision-Code Transformer for UI-to-Code Generation （2023.05.24）

Davit Soselia, Khalid Saifullah, Tianyi Zhou

CMOT: Cross-modal Mixup via Optimal Transport for Speech Translation （2023.05.24）

Yan Zhou, Qingkai Fang, Yang Feng

KNN-LM Does Not Improve Open-ended Text Generation （2023.05.24）

Shufan Wang, Yixiao Song, Andrew Drozdov, Aparna Garimella, Varun Manjunatha, etc

Abductive Commonsense Reasoning Exploiting Mutually Exclusive Explanations （2023.05.24）

Wenting Zhao, Justin T. Chiu, Claire Cardie, Alexander M. Rush

Connecting the Dots: What Graph-Based Text Representations Work Best for Text Classification using Graph Neural Networks? （2023.05.23）

Margarita Bugueno, Gerard de Melo

Language Models with Rationality （2023.05.23）

Nora Kassner, Oyvind Tafjord, Ashish Sabharwal, Kyle Richardson, Hinrich Schütze, etc

A Trip Towards Fairness: Bias and De-Biasing in Large Language Models （2023.05.23）

Leonardo Ranaldi, Elena Sofia Ruzzetti, Davide Venditti, Dario Onorati, Fabio Massimo Zanzotto

Question Answering as Programming for Solving Time-Sensitive Questions （2023.05.23）

Xinyu Zhu, Cheng Yang, Bei Chen, Siheng Li, Jian-Guang Lou, etc

PaD: Program-aided Distillation Specializes Large Models in Reasoning （2023.05.23）

Xuekai Zhu, Biqing Qi, Kaiyan Zhang, Xingwei Long, Bowen Zhou

Aligning Large Language Models through Synthetic Feedback （2023.05.23）

Sungdong Kim, Sanghwan Bae, Jamin Shin, Soyoung Kang, Donghyun Kwak, etc

LogicLLM: Exploring Self-supervised Logic-enhanced Training for Large Language Models （2023.05.23）

Fangkai Jiao, Zhiyang Teng, Shafiq Joty, Bosheng Ding, Aixin Sun, etc

ChatCoT: Tool-Augmented Chain-of-Thought Reasoning on Chat-based Large Language Models （2023.05.23）

Z. Chen, Kun Zhou, Beichen Zhang, Zheng Gong, Wayne Xin Zhao, etc

Knowledge-Retrieval Task-Oriented Dialog Systems with Semi-Supervision （2023.05.22）

Yucheng Cai, Hong Liu, Zhijian Ou, Y. Huang, Junlan Feng

Sentence Representations via Gaussian Embedding （2023.05.22）

Shohei Yoda, Hayato Tsukagoshi, Ryohei Sasano, Koichi Takeda

Contrastive Learning with Logic-driven Data Augmentation for Logical Reasoning over Text （2023.05.21）

Qiming Bao, Alex Yuxuan Peng, Zhenyun Deng, Wanjun Zhong, Neset Tan, etc

Retrieving Texts based on Abstract Descriptions （2023.05.21）

Shauli Ravfogel, Valentina Pyatkin, Amir D. N. Cohen, Avshalom Manevich, Yoav Goldberg

Logic-LM: Empowering Large Language Models with Symbolic Solvers for Faithful Logical Reasoning （2023.05.20）

Liangming Pan, Alon Albalak, Xinyi Wang, William Yang Wang

LogiCoT: Logical Chain-of-Thought Instruction-Tuning Data Collection with GPT-4 （2023.05.20）

Hanmeng Liu, Zhiyang Teng, Leyang Cui, Chaoli Zhang, Qiji Zhou, etc

SelfzCoT: a Self-Prompt Zero-shot CoT from Semantic-level to Code-level for a Better Utilization of LLMs （2023.05.19）

IokTong Lei, ZhiDong Deng . - 【arXiv.org】

Decouple knowledge from paramters for plug-and-play language modeling （2023.05.19）

Xin Cheng, Yankai Lin, Xiuying Chen, Dongyan Zhao, Rui Yan . - 【arXiv.org】

RCOT: Detecting and Rectifying Factual Inconsistency in Reasoning by Reversing Chain-of-Thought （2023.05.19）

Tianci Xue, Ziqi Wang, Zhenhailong Wang, Chi Han, Pengfei Yu, etc . - 【arXiv.org】

Do Models Really Learn to Follow Instructions? An Empirical Study of Instruction Tuning （2023.05.19）

Po-Nien Kung, Nanyun Peng . - 【arXiv.org】

AutoTrial: Prompting Language Models for Clinical Trial Design （2023.05.19）

Zifeng Wang, Cao Xiao, Jimeng Sun . - 【arXiv.org】

Ditto: A Simple and Efficient Approach to Improve Sentence Embeddings （2023.05.18）

Qian Chen, Wen Wang, Qinglin Zhang, Siqi Zheng, Chong Deng, etc . - 【arXiv.org】

ReGen: Zero-Shot Text Classification via Training Data Generation with Progressive Dense Retrieval （2023.05.18）

Yue Yu, Yuchen Zhuang, Rongzhi Zhang, Yu Meng, Jiaming Shen, etc . - 【arXiv.org】

Efficient Prompting via Dynamic In-Context Learning （2023.05.18）

Wangchunshu Zhou, Yuchen Jiang, Ryan Cotterell, Mrinmaya Sachan . - 【arXiv.org】

The Web Can Be Your Oyster for Improving Large Language Models （2023.05.18）

Junyi Li, Tianyi Tang, Wayne Xin Zhao, Jingyuan Wang, J. Nie, etc . - 【arXiv.org】

TOME: A Two-stage Approach for Model-based Retrieval （2023.05.18）

Ruiyang Ren, Wayne Xin Zhao, J. Liu, Huaqin Wu, Ji-rong Wen, etc . - 【arXiv.org】

X-LLM: Bootstrapping Advanced Large Language Models by Treating Multi-Modalities as Foreign Languages （2023.05.07）

Feilong Chen, Minglun Han, Haozhi Zhao, Qingyang Zhang, Jing Shi, etc . - 【arXiv.org】

Principle-Driven Self-Alignment of Language Models from Scratch with Minimal Human Supervision （2023.05.04）

Zhiqing Sun, Yikang Shen, Qinhong Zhou, Hongxin Zhang, Zhenfang Chen, etc . - 【arXiv.org】

AutoML-GPT: Automatic Machine Learning with GPT （2023.05.04）

Shujian Zhang, Chengyue Gong, Lemeng Wu, Xingchao Liu, Mi Zhou . - 【arXiv.org】

Distilling Step-by-Step! Outperforming Larger Language Models with Less Training Data and Smaller Model Sizes （2023.05.03）

Cheng-Yu Hsieh, Chun-Liang Li, Chih-Kuan Yeh, Hootan Nakhost, Yasuhisa Fujii, etc . - 【arXiv.org】

Unlimiformer: Long-Range Transformers with Unlimited Length Input （2023.05.02）

Amanda Bertsch, Uri Alon, Graham Neubig, Matthew R. Gormley . - 【arXiv.org】

Transfer Visual Prompt Generator across LLMs （2023.05.02）

Ao Zhang, Hao Fei, Yuan Yao, Wei Ji, Li Li, etc . - 【arXiv.org】

Improving Grounded Language Understanding in a Collaborative Environment by Interacting with Agents Through Help Feedback （2023.04.21）

Nikhil Mehta, Milagro Teruel, Patricio Figueroa Sanz, Xinwei Deng, A. Awadallah, etc

Segment Anything Model for Medical Image Analysis: an Experimental Study （2023.04.20）

Maciej A. Mazurowski, Haoyu Dong, Han Gu, Jichen Yang, N. Konz, etc

Chameleon: Plug-and-Play Compositional Reasoning with Large Language Models （2023.04.19）

Pan Lu, Baolin Peng, Hao Cheng, Michel Galley, Kai-Wei Chang, etc

Accuracy of Segment-Anything Model (SAM) in medical image segmentation tasks （2023.04.18）

Sheng He, Rina Bao, Jingpeng Li, P. Grant, Yangming Ou

When SAM Meets Medical Images: An Investigation of Segment Anything Model (SAM) on Multi-phase Liver Tumor Segmentation （2023.04.17）

Chuanfei Hu, Xinde Li

The Segment Anything foundation model achieves favorable brain tumor autosegmentation accuracy on MRI to support radiotherapy treatment planning （2023.04.16）

F. Putz, Johanna Grigo, T. Weissmann, P. Schubert, D. Hoefler, etc

Deep learning universal crater detection using Segment Anything Model (SAM) （2023.04.16）

I. Giannakis, A. Bhardwaj, L. Sam, G. Leontidis . - 【arXiv.org】

Segment Anything Model (SAM) for Digital Pathology: Assess Zero-shot Segmentation on Whole Slide Imaging （2023.04.09）

Ruining Deng, C. Cui, Quan Liu, Tianyuan Yao, L. W. Remedios, etc . - 【arXiv.org】

TagGPT: Large Language Models are Zero-shot Multimodal Taggers （2023.04.06）

Pythia: A Suite for Analyzing Large Language Models Across Training and Scaling （2023.04.03）

Stella Biderman, Hailey Schoelkopf, Quentin Anthony, Herbie Bradley, Kyle O'Brien, etc

BloombergGPT: A Large Language Model for Finance （2023.03.30）

Shijie Wu, Ozan Irsoy, Steven Lu, Vadim Dabravolski, Mark Dredze, etc

Scaling Expert Language Models with Unsupervised Domain Discovery （2023.03.24）

Suchin Gururangan, Margaret Li, Mike Lewis, Weijia Shi, Tim Althoff, etc

Sparks of Artificial General Intelligence: Early experiments with GPT-4 （2023.03.22）

S'ebastien Bubeck, Varun Chandrasekaran, Ronen Eldan, Johannes Gehrke, Eric Horvitz, etc

CoLT5: Faster Long-Range Transformers with Conditional Computation （2023.03.17）

J. Ainslie, Tao Lei, Michiel de Jong, Santiago Ontan'on, Siddhartha Brahma, etc . - 【ArXiv】

Meet in the Middle: A New Pre-training Paradigm （2023.03.13）

A. Nguyen, Nikos Karampatziakis, Weizhu Chen . - 【ArXiv】

High-throughput Generative Inference of Large Language Models with a Single GPU （2023.03.13）

Ying Sheng, Lianmin Zheng, Binhang Yuan, Zhuohan Li, Max Ryabinin, etc . - 【ArXiv】

Stabilizing Transformer Training by Preventing Attention Entropy Collapse （2023.03.11）

Shuangfei Zhai, T. Likhomanenko, Etai Littwin, Dan Busbridge, Jason Ramapuram, etc . - 【ArXiv】

An Overview on Language Models: Recent Developments and Outlook （2023.03.10）

Chen Wei, Yun Cheng Wang, Bin Wang, C.-C. Jay Kuo . - 【ArXiv】

Foundation Models for Decision Making: Problems, Methods, and Opportunities （2023.03.07）

Sherry Yang, Ofir Nachum, Yilun Du, Jason Wei, P. Abbeel, etc . - 【ArXiv】

How Do Transformers Learn Topic Structure: Towards a Mechanistic Understanding （2023.03.07）

Yuchen Li, Yuan-Fang Li, Andrej Risteski . - 【ArXiv】

LLaMA: Open and Efficient Foundation Language Models （2023.02.27）

Hugo Touvron, Thibaut Lavril, Gautier Izacard, Xavier Martinet, Marie-Anne Lachaux, etc . - 【ArXiv】

Self-Instruct: Aligning Language Model with Self Generated Instructions （2022.12.20）

Yizhong Wang, Yeganeh Kordi, Swaroop Mishra, Alisa Liu, Noah A. Smith, etc . - 【ArXiv】

Solving Math Word Problem via Cooperative Reasoning induced Language Models （2022.10.28）

Xinyu Zhu, Junjie Wang, Lin Zhang, Yuxiang Zhang, Ruyi Gan, etc . - 【ArXiv】

Training a Helpful and Harmless Assistant with Reinforcement Learning from Human Feedback （2022.04.12）

Yuntao Bai, Andy Jones, Kamal Ndousse, Amanda Askell, Anna Chen, etc . - 【ArXiv】

PaLM: Scaling Language Modeling with Pathways （2022.04.05）

Aakanksha Chowdhery, Sharan Narang, Jacob Devlin, Maarten Bosma, Gaurav Mishra, etc . - 【ArXiv】

Training language models to follow instructions with human feedback （2022.03.04）

Long Ouyang, Jeff Wu, Xu Jiang, Diogo Almeida, Carroll L. Wainwright, etc . - 【ArXiv】

LoRA: Low-Rank Adaptation of Large Language Models （2021.06.17）

Edward J. Hu, Yelong Shen, Phillip Wallis, Zeyuan Allen-Zhu, Yuanzhi Li, etc . - 【International Conference on Learning Representations】

Language Models are Unsupervised Multitask Learners

Alec Radford, Jeff Wu, Rewon Child, D. Luan, Dario Amodei, etc

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

foundationmodels.md

foundationmodels.md

📄 Foundation Models

Paper List

CONTINUE...

Files

foundationmodels.md

Latest commit

History

foundationmodels.md

File metadata and controls

📄 Foundation Models

Paper List

CONTINUE...