数据集列表¶
PaddleNLP提供了以下数据集的快速读取API,实际使用时请根据需要添加splits信息:
阅读理解¶
数据集名称 |
简介 |
调用方法 |
---|---|---|
斯坦福问答数据集,包括SQuAD1.1和SQuAD2.0 |
|
|
千言数据集:阅读理解,判断答案极性 |
|
|
千言数据集:阅读理解,答案原文抽取 |
|
|
第二届“讯飞杯”中文机器阅读理解评测数据集 |
|
|
台達閱讀理解資料集 |
|
文本分类¶
数据集名称 |
简介 |
调用方法 |
---|---|---|
单句分类任务,二分类,判断句子是否合法 |
|
|
单句分类任务,二分类,判断句子情感极性 |
|
|
句对匹配任务,二分类,判断句子对是否是相同意思 |
|
|
计算句子对相似性,分数为1~5 |
|
|
判定句子对是否等效,等效、不等效两种情况,二分类任务 |
|
|
句子对,一个前提,一个是假设。前提和假设的关系有三种情况:蕴含(entailment),矛盾(contradiction),中立(neutral)。句子对三分类问题 |
|
|
判断问题(question)和句子(sentence)是否蕴含,蕴含和不蕴含,二分类 |
|
|
判断句对是否蕴含,句子1和句子2是否互为蕴含,二分类任务 |
|
|
判断句子对是否相关,相关或不相关,二分类任务 |
|
|
A Large-scale Chinese Question Matching Corpus 语义匹配数据集 |
|
|
中文评论情感分析语料 |
|
序列标注¶
数据集名称 |
简介 |
调用方法 |
---|---|---|
MSRA 命名实体识别数据集 |
|
|
人民日报命名实体识别数据集 |
|
机器翻译¶
数据集名称 |
简介 |
调用方法 |
---|---|---|
IWSLT’15 English-Vietnamese data 英语-越南语翻译数据集 |
|
|
WMT14 EN-DE 经过BPE分词的英语-德语翻译数据集 |
|
文本生成¶
数据集名称 |
简介 |
调用方法 |
---|---|---|
中文诗歌古典文集数据 |
|
|
中文对联数据集 |
|
语料库¶
数据集名称 |
简介 |
调用方法 |
---|---|---|
Penn Treebank Dataset |
|
|
从Yahoo Answer采样100K |
|