数据集列表¶

PaddleNLP提供了以下数据集的快速读取API，实际使用时请根据需要添加splits信息：

阅读理解¶

数据集名称	简介	调用方法
SQuAD	斯坦福问答数据集，包括SQuAD1.1和SQuAD2.0	`paddlenlp.datasets.load_dataset('squad')`
DuReader-yesno	千言数据集：阅读理解，判断答案极性	`paddlenlp.datasets.load_dataset('dureader_yesno')`
DuReader-robust	千言数据集：阅读理解，答案原文抽取	`paddlenlp.datasets.load_dataset('dureader_robust')`
CMRC2018	第二届“讯飞杯”中文机器阅读理解评测数据集	`paddlenlp.datasets.load_dataset('cmrc2018')`
DRCD	台達閱讀理解資料集	`paddlenlp.datasets.load_dataset('drcd')`

数据集名称	简介	调用方法
CoLA	单句分类任务，二分类，判断句子是否合法	`paddlenlp.datasets.load_dataset('glue','cola')`
SST-2	单句分类任务，二分类，判断句子情感极性	`paddlenlp.datasets.load_dataset('glue','sst-2')`
MRPC	句对匹配任务，二分类，判断句子对是否是相同意思	`paddlenlp.datasets.load_dataset('glue','mrpc')`
STSB	计算句子对相似性，分数为1~5	`paddlenlp.datasets.load_dataset('glue','sts-b')`
QQP	判定句子对是否等效，等效、不等效两种情况，二分类任务	`paddlenlp.datasets.load_dataset('glue','qqp')`
MNLI	句子对，一个前提，一个是假设。前提和假设的关系有三种情况：蕴含（entailment），矛盾（contradiction），中立（neutral）。句子对三分类问题	`paddlenlp.datasets.load_dataset('glue','mnli')`
QNLI	判断问题（question）和句子（sentence）是否蕴含，蕴含和不蕴含，二分类	`paddlenlp.datasets.load_dataset('glue','qnli')`
RTE	判断句对是否蕴含，句子1和句子2是否互为蕴含，二分类任务	`paddlenlp.datasets.load_dataset('glue','rte')`
WNLI	判断句子对是否相关，相关或不相关，二分类任务	`paddlenlp.datasets.load_dataset('glue','wnli')`
LCQMC	A Large-scale Chinese Question Matching Corpus 语义匹配数据集	`paddlenlp.datasets.load_dataset('lcqmc')`
ChnSentiCorp	中文评论情感分析语料	`paddlenlp.datasets.load_dataset('chnsenticorp')`

数据集名称	简介	调用方法
MSRA_NER	MSRA 命名实体识别数据集	`paddlenlp.datasets.load_dataset('msra_ner')`
People’s Daily	人民日报命名实体识别数据集	`paddlenlp.datasets.load_dataset('peoples_daily_ner')`

数据集名称	简介	调用方法
IWSLT15	IWSLT’15 English-Vietnamese data 英语-越南语翻译数据集	`paddlenlp.datasets.load_dataset('iwslt15')`
WMT14ENDE	WMT14 EN-DE 经过BPE分词的英语-德语翻译数据集	`paddlenlp.datasets.load_dataset('wmt14ende')`

数据集名称	简介	调用方法
Poetry	中文诗歌古典文集数据	`paddlenlp.datasets.load_dataset('poetry')`
Couplet	中文对联数据集	`paddlenlp.datasets.load_dataset('couplet')`

数据集名称	简介	调用方法
PTB	Penn Treebank Dataset	`paddlenlp.datasets.load_dataset('ptb')`
Yahoo Answer 100k	从Yahoo Answer采样100K	`paddlenlp.datasets.load_dataset('yahoo_answer_100k')`