原始数据集详情

简介:GID 是基于我国Gaofen-2卫星数据而构建的大规模高分辨率遥感图像土地覆盖数据集。GID数据集分为大规模分类集(GID-5)和精细土地覆盖集(GID-15)两个部分。大规模分类集(GID-5)包含建筑、农田、森林、草地和水域等5个土地覆盖类别,共计150景像素级标注的Gaofen-2卫星遥感图像。其中,训练集为120景图像,验证集为30景图像。Gaofen-2卫星遥感图像的尺寸为6800×7200,由遥感解译领域的专家进行像素级标注。精细土地覆盖集(GID-15)包含稻田、灌溉地、旱地、园地、乔木林、灌木林、自然草地、人工草地、工业用地、城市住宅、农村住宅、交通用地、河流、湖泊、池塘等15个类别,共计有30000个图像块。

GID数据集具有以下优点:

(1)土地覆盖信息分布广泛。GID包含150景高质量高分辨率的Gaofen-2卫星遥感图像,这些图像是从中国60多个不同的城市拍摄获取,每幅图像都没有云雾遮挡且清晰高质。整体图像的覆盖范围超过50000平方公里的地理区域。

(2)贴近真实的地物分布特性。GID包括相同区域不同季节、不同光照条件下的大量样本。GID数据集在光谱、纹理、结构上具有极为丰富的多样性,十分贴近真实的地物分布特性。

Key Value
卫星类型 高分2
覆盖区域 覆盖范围超过50000平方公里
场景 中国60多个不同的城市
分辨率 0.8m
数量 大规模分类集(GID-5)150张、精细土地覆盖集(GID-15)10张
单张尺寸 7200*6800
原始影像位深 8位
标签图片位深 8位
原始影像通道数 三通道
标签图片通道数 三通道

标签类别对照表

15类别表:

像素值 类别名(英文) 类别名(中文) RGB
1 industrial land 工业用地 0, 0, 63
2 urban residential 城市住宅 0, 63, 63
3 rural residential 农村住宅 0, 63, 0
4 traffic land 交通用地 0, 63, 127
5 paddy field 稻田 0, 63, 191
6 irrigated land 灌溉地 0, 63, 255
7 dry cropland 旱地 0, 127, 63
8 garden land 园地 0, 127, 127
9 arbor forest 乔木林 0, 0, 127
10 shrub land 灌木林 0, 0, 191
11 natural meadow 自然草地 0, 0, 255
12 artifical meadow 人工草地 0, 191, 127
13 river 河流 0, 127, 191
14 lake 湖泊 0, 127, 255
15 pond 池塘 0, 100, 155

数据补充说明

根据官方提供的数据集可以知道,5类别数据还是挺多的,大图150张都有标注类别,但是15类别的样本数据就只有10张标注了类别,这样裁剪成小图512x512大小的可能就只有2100张,这对于模型训练是完全不够的,因此博主根据官方提供的另外一些数据样本完美的将150张大图全部都绘制了15个类别,经过仔细核查,与原始官方公布的类别完全一致,最后切片为512x512大小的共有31500张,这样模型训练就完全足够了。

数据预处理

下面对150张原始影像及标签进行模型训练前的数据预处理,首先根据自己训练模型的图片尺寸大小批量裁剪原始影像和标签为所需要的尺寸,比如512*512,另外如果需要检查裁剪后的数据是否一一对应,最好给标签数据添加颜色表,这样就可以轻易看出影像和真值标签是否一致。

下面就是使用代码对原始影像及原始标签进行批量裁剪为512*512大小,并给真值标签添加颜色表,效果图如下所示:

在这里插入图片描述

获取相关数据集或咨询交流见 博主首页 个人简介
1、官网原始数据集;
2、中间处理好的大图数据集;
3、裁剪后可直接训练的小图数据集;

Logo

欢迎加入 MCP 技术社区!与志同道合者携手前行,一同解锁 MCP 技术的无限可能!

更多推荐