Available Benchmarks

LangTest supports many benchmark datasets for testing your models. These are generally for LLM’s and focus on different abilities of LLM’s such as question answering and summarization. There are also benchmarks to test a model’s performance on metrics like robustness, accuracy and fairness.

Dataset	Task	Category	Source
ASDiv	question-answering	`robustness`, `accuracy`, `fairness`	A Diverse Corpus for Evaluating and Developing English Math Word Problem Solvers
BBQ	question-answering	`robustness`, `accuracy`, `fairness`	BBQ Dataset: A Hand-Built Bias Benchmark for Question Answering
Bigbench	question-answering	`robustness`, `accuracy`, `fairness`	Beyond the Imitation Game: Quantifying and extrapolating the capabilities of language models
BoolQ	question-answering	`robustness`, `accuracy`, `fairness`,`bias`	BoolQ: Exploring the Surprising Difficulty of Natural Yes/No Questions
CommonsenseQA	question-answering	`robustness`, `accuracy`, `fairness`	CommonsenseQA: A Question Answering Challenge Targeting Commonsense Knowledge
FIQA	question-answering	`robustness`, `accuracy`, `fairness`	FIQA (Financial Opinion Mining and Question Answering)
HellaSwag	question-answering	`robustness`, `accuracy`, `fairness`	HellaSwag: Can a Machine Really Finish Your Sentence?
Consumer-Contracts	question-answering	`robustness`, `accuracy`, `fairness`	Answer yes/no questions on the rights and obligations created by clauses in terms of services agreements.
Contracts	question-answering	`robustness`, `accuracy`, `fairness`	Answer yes/no questions about whether contractual clauses discuss particular issues.
Privacy-Policy	question-answering	`robustness`, `accuracy`, `fairness`	Given a question and a clause from a privacy policy, determine if the clause contains enough information to answer the question.
LogiQA	question-answering	`robustness`, `accuracy`, `fairness`	LogiQA: A Challenge Dataset for Machine Reading Comprehension with Logical Reasoning
MMLU	question-answering	`robustness`, `accuracy`, `fairness`	MMLU: Measuring Massive Multitask Language Understanding
NarrativeQA	question-answering	`robustness`, `accuracy`, `fairness`	The NarrativeQA Reading Comprehension Challenge
NQ-open	question-answering	`robustness`, `accuracy`, `fairness`	Natural Questions: A Benchmark for Question Answering Research
OpenBookQA	question-answering	`robustness`, `accuracy`, `fairness`	Can a Suit of Armor Conduct Electricity? A New Dataset for Open Book Question Answering
PIQA	question-answering	`robustness`	PIQA: Reasoning about Physical Commonsense in Natural Language
Quac	question-answering	`robustness`, `accuracy`, `fairness`	Quac: Question Answering in Context
SIQA	question-answering	`robustness`, `accuracy`, `fairness`	SocialIQA: Commonsense Reasoning about Social Interactions
TruthfulQA	question-answering	`robustness`, `accuracy`, `fairness`	TruthfulQA: Measuring How Models Mimic Human Falsehoods
XSum	summarization	`robustness`, `accuracy`, `fairness`, `bias`	Don’t Give Me the Details, Just the Summary! Topic-Aware Convolutional Neural Networks for Extreme Summarization
MultiLexSum	summarization	`robustness`, `accuracy`, `fairness`	Multi-LexSum: Real-World Summaries of Civil Rights Lawsuits at Multiple Granularities
MedMCQA	question-answering	`robustness`, `accuracy`, `fairness`	MedMCQA: A Large-scale Multi-Subject Multi-Choice Dataset for Medical domain Question Answering
MedQA	question-answering	`robustness`, `accuracy`, `fairness`	What Disease does this Patient Have? A Large-scale Open Domain Question Answering Dataset from Medical Exams
PubMedQA	question-answering	`robustness`, `accuracy`, `fairness`	PubMedQA: A Dataset for Biomedical Research Question Answering
LiveQA	question-answering	`robustness`	Overview of the Medical Question Answering Task at TREC 2017 LiveQA
MedicationQA	question-answering	`robustness`	Bridging the Gap Between Consumers’ Medication Questions and Trusted Answers
HealthSearchQA	question-answering	`robustness`	Large Language Models Encode Clinical Knowledge