机器学习领域里有哪些开放数据集?Gengo 近日发布了一份高质量免费数据集列表,其搜索范围不仅包含内容广泛(如 Kaggle),也包括高度特化的(如自动驾驶汽车专用数据集)数据集种类。
首先,在选择数据集时要记住几个重要标准:
- 数据集不能是混乱的,因为你不希望花费大量时间整理数据。
- 数据集不应该有过多的行或者列,这样才能容易处理。
- 数据越干净越好——清理大型数据集可能会非常耗时。
- 该数据集可以用于回答一些有趣的问题。
这样的话,让我们看看能找到点什么?
查找数据集
Kaggle:一个数据科学竞赛网站,其中包含大量外部贡献的有趣数据集。你可以在它长长的列表中()找到各种小众数据集,从拉面的评分、篮球数据,到西雅图的宠物牌照。
UCI Machine Learning Repository:它是网络中最古老的数据集源之一,是寻找各种有趣数据集的第一选择。在这里,尽管数据集都是用户自行贡献的,但清洁程度仍然很高。此外,你可以直接从 UCI Machine Learning Repository 上下载数据,无需注册。
通用数据集
公共政府数据集
:这个网站可以从多个美国政府机构下载数据,从政府预算到学校成绩。不过要注意:其中的大部分数据需要进一步研究。
链接:
Food Environment Atlas:包含有关本地食物选择如何影响美国饮食习惯的数据。
链接:
School system finances:美国学校系统财务状况调查。
链接:
Chronic disease data:美国各地慢性病指标数据。
链接:
The US National Center for Education Statistics:美国和世界各地教育机构和教育人口统计数据。
链接:
The UK Data Centre:英国最大的社会、经济和人口数据收集。
链接:
Data USA:美国公共数据的全面可视化。
链接:
金融类
Quandl:很好的财经数据来源——有助于建立预测经济指标或股票价格的模型。
链接:
World Bank Open Data:涵盖人口统计和世界各地大量经济和发展指标的数据集。
链接:
IMF Data:国际货币基金组织公布有关国际金融、债务利率、外汇储备、商品价格和投资的数据。
链接:
Financial Times Market Data:世界金融市场的最新信息,包括股票价格指数、商品和外汇。
链接:
Google Trends:观察和分析有关互联网搜索活动和世界各地新闻故事趋势的数据。
链接:
AmericanEconomic Association (AEA):寻找美国宏观经济数据的来源。
链接:
机器学习数据集
图像
Labelme:注释图像的大数据集。
链接:
ImageNet:著名的 ImageNet,由斯坦福大学教授李飞飞等人发起,它是面向新算法的真实图像数据集。根据 WordNet 层次结构来组织,其中层次结构的每个节点都由成百上千个图像来描述。
链接:
LSUN:场景理解和许多辅助任务(房间布局估计、显著性预测等)。
链接:
MS COCO:ImageNet 之外另一个常用的图像数据集,包含通用图像理解和注释。
链接:
COIL100:100 个不同的物体在 360°旋转中以每个角度成像。
链接:
Visual Genome:非常详细的视觉知识库,配有约 100K 个图像的注释。
链接:
Google's Open Images:Creative Commons 下的 900 万个图片的网址集合,「已经标注了跨越 6000 多个类别的标签」。
链接:
Labelled Faces in the Wild:13000 张贴有标签的人脸图像,用于开发涉及人脸识别的应用。
链接:
Stanford Dogs Dataset:包含 20580 个图像和 120 个不同品种的狗类别。
链接:
Indoor Scene Recognition:非常具体的数据集,适用于大多数场景识别模型,因为后者在「外部」表现更好。包含 67 个室内类别,总共 15620 个图像。
链接:
情感分析
Multidomain Sentiment analysis dataset:有点旧的一个数据集,以亚马逊的产品评论为特色。
链接:
IMDB reviews:用于二进制情感分类的较旧的、相对较小的数据集,具有 25000 个电影评论。
链接:
Stanford Sentiment Treebank:带有情感注释的标准情感数据集。
链接:
Sentiment140:一个流行的数据集,使用 16 万条预先删除表情符号的推文
链接:
Twitter US Airline Sentiment:2015 年 2 月以来美国航空公司的推特数据,分为正面、负面和中性。
链接:
自然语言处理
Enron Dataset:Enron 公司高层管理人员的电子邮件数据,整理成文件夹。
链接:
Amazon Reviews:包含来自亚马逊长达 18 年的约 3500 万条评论。数据包括产品和用户信息、评级和明文审查。
链接:
Google Books Ngrams:Google 书籍中的词汇集合。
链接:
Blogger Corpus:从 blogger . com 收集的 681288 篇博客文章。每个博客至少包含 200 个常用英语单词。
链接:
Wikipedia Links data:维基百科全文。数据集包含 400 多万篇文章中的近 19 亿字。你可以根据单词、短语或段落本身的一部分进行搜索。
链接:
Gutenberg eBooks List:古腾堡计划电子书注释清单。
链接:
Hansards text chunks of Canadian Parliament:加拿大第 36 届国会记录 130 万对文本。
链接:
Jeopardy:机智问答节目 Jeopardy 中存档的 20 多万个问题。
链接:
SMS Spam Collection in English:由 5574 条英文短信垃圾邮件组成的数据集
链接:
Yelp Reviews:Yelp 发布的开放数据集包含 500 多万条评论。
链接:
UCI's Spambase:大型垃圾邮件数据集,可用于垃圾邮件过滤。
链接:
自动驾驶
Berkeley DeepDrive BDD100k:目前最大的自动驾驶人工智能数据集。包含 100000 多段视频,内容涉及一天中不同时间和天气条件下 1100 多小时的驾驶体验。注释图像来自纽约和旧金山地区。
链接:
Baidu Apolloscapes:百度 Apollo 计划开放的大规模自动驾驶数据集。它定义了 26 个不同语义项目,如汽车、自行车、行人、建筑物、路灯等。
链接:
Comma.ai:7 小时以上的公路行驶体验。详细信息包括车速、加速度、转向角和 GPS 坐标。
链接:
Oxford's Robotic Car:一年内在英国牛津同一条路线重复 100 多次的行驶。数据集捕捉天气、交通和行人的不同组合,以及建筑和道路工程等长期变化。
链接:
Cityscape Dataset:记录 50 个不同城市街道场景的大型数据集。
链接:
CSSAD Dataset:该数据集可用于自主车辆的感知和导航。数据集在发达国家的道路上出现严重偏差。
链接:
KUL Belgium Traffic Sign Dataset:比利时佛兰德区数以千计截然不同的超过 10000 个的交通标志标注。
链接:
MIT AGE Lab:在 AgeLab 收集的 1000 多个小时的多传感器驱动数据集样本。
链接:
LISA: Laboratory for Intelligent & Safe Automobiles, UC San Diego Datasets:此数据集包括交通标志、车辆检测、交通灯和轨迹模式。
关注公众账号
【飞马会】
▼
往期福利关注飞马会公众号,回复对应关键词打包下载学习资料;回复“入群”,加入飞马网AI、大数据、项目经理学习群,和优秀的人一起成长!
微软大牛人工智能系列课
(扫码试听或订阅)
(二维码自动识别)
回复 数字“2”
回复 数字“3”
回复 数字“12”
回复 数字“13”
回复 数字“14”
回复 数字“16”
回复 数字“18”
回复 数字“19”
回复 数字“20”
回复 数字“22”
回复 数字“23”
回复 数字“24”
回复 数字“25”
回复 数字“27”
回复 人工智能下载《FMI人工智能与大数据峰会嘉宾演讲PPT》
回复 AI 江湖下载《十大AI江湖领域》
回复 ML实践下载《机器学习实践经验指导(英文版)》
回复 DL论文下载《深度学习100篇以上论文资料》
回复 算法 下载《数据挖掘十大经典算法》
回复 6.10 下载《6.10饿了么&飞马网项目管理实践PPT》