博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
【论文阅读】Classification of breast cancer histology images using transfer learning
阅读量:6188 次
发布时间:2019-06-21

本文共 2467 字,大约阅读时间需要 8 分钟。

Classification of breast cancer histology images using transfer learning 

 

一、数据集

BACH 2018 grand challenge

(ICIAR 2018 Grand Challenge on BreAst Cancer Histology images) 

https://iciar2018-challenge.grand-challenge.org/home/ 

其实算得上Camelyon 16和17 的后继版本。

所不同的是,camelyon 16的数据只有WSI(whole slide images),比赛有两个任务,分别是WSI分类(是否含有肿瘤)和肿瘤位置的定位。总体来说是二类任务的分类与分割。camelyon 17 数据与16有相似之处,任务也不同,不再赘述,感兴趣可以去官网看看。

BACH也有两个任务,第一个任务是相对比较小的图片的四个阶段的分类,第二个任务是WSI中不同阶段的定位(算是四类的分割)。

BACH中第二个任务的图片分辨率极高,本文没有涉及。本文所涉及的第一个任务的图片尺寸为2048*1536 pixels(论文中写的是2040*1536,我去官网看了一下,应该是2048)。训练图片分为四类normal,benign,in situ caicinoma, invasive carcinoma。每个类别有100张图片。(这四百张其实是官方放出来的训练数据,后续还公布了测试数据,只是作者没有使用。)官网竞赛结果已经出来了,官网即可查看。本文的结果只是训练集上的结果。

作者采用train:validation:test = 60:20:20 的比例来随机划分每类图片。

 

二、预处理:

1.染色归一化:

训练图片均为Hematoxylin和Eosin染色再由光学显微镜呈现,所以色彩上会有一定的差异。需要归一化来校正载玻片制备过程中产生的误差。

以往的论文也会采用归一化的手段来处理色彩差异,本文采用了不一样的归一化方式,呈现出的效果的确不错,不知道最后的好结果是不是与特定的归一化手段有关。作者关于归一化方法是这么说的:

In this paper, we used the approach proposed by Reinhard et al. [11] which matches the statistics of color histograms of a source and target image, following transformation of the RGB images to the de-correlated LAB color space. 

其中所涉及是这篇文章:

Reinhard, E., Adhikhmin, M., Gooch, B., Shirley, P.: Color transfer between im- ages. IEEE Computer Graphics and Applications 21(5) (Sep 2001) 34-41 

 

2. 其他处理:

由于2018*1536对于训练来说还是过大,而每张图片只有一个标签。裁剪过大没有减少网络的负载,而裁剪尺寸过小则有可能不包含标签所指定的这一类,通常我们只有看到较大范围的信息才能确定类别。作者选择了50%重叠(overlap)的512*512进行裁剪。也就是,每张图片35patches,共14000patches。标签(label)仍然使用原图的标签。

每个patch同时采用旋转(90、180、270)+ 镜像翻转(水平,垂直),相当于原来6倍的数据量。原来320训练数据,现在67200训练数据。测试集依然是80张(没有裁剪和变换),测试集的重叠部分采用投票机制。

 

三、网络结构

作者使用了Google的Inception V3 和 ResNet50,使用了他们在ImageNet预训练的参数进行fine-tune(这就是作者所说的迁移学习)。针对上述的两个网络,作者都做了些许的改动,比如V3,作者去掉了末尾五层,增加了average global pooling,fc,softmax。ResNet50也做相应的改变。据作者说,他是想获得全局的信息来判断。 

网络配置:SGD,batch_size=32, lr = 0.0001, momentum = 0.9

 

四、结果

评测指标:accuracy准确率=正确/总数 (作者分别计算了patch和全图的准确率)

官网对于该任务的评测指标也是accuracy 

 

作者也给出了ROC曲线,官网并没有这个指标,但是ROC确实是医学图像分类常见的指标。

 

个人评价:

1、归一化的部分我还需要再仔细研究一下来验证其效果。

2、迁移学习,创新性不强,算得上baseline,同时缺乏比较。可能就是因为看起来思路过于简单了。

3、训练集结果过高,反观官网给出的测试结果最高只有0.87,作者这个是否有过拟合的嫌疑有待考证。

4、数据很新,又没有用测试集,仅仅在训练集用了一种划分产生了的结果很难有说服力。可能这种情况交叉验证会好一些。但是本文创新性不够,也没啥可比较的……如果用了交叉验证,别人也好和你比一比,现在这种随机划分一次,别人复现不出来也不好说什么……

5、改变了网络末尾的结构只给了作者自己的想法,并没有用实验证明修改的正确性(感觉是硬伤)。

6、以上纯属个人瞎唠叨,说错了别打我。还是去看看染色归一化吧(这数据看起来差异还真挺大的)

 

咳咳,补充一下:

作者自己划分的测试集结果很好,但有过拟合的嫌疑。官网给出了测试集的结果,该文作者在该任务上取得了第31名(共51个参赛队伍)。测试集准确率0.66,冠军是0.87

 

 

 

转载于:https://www.cnblogs.com/xiangfeidemengzhu/p/9037869.html

你可能感兴趣的文章
05 Oracle process
查看>>
强力重置ASP.NET membership加密后的密码![转]
查看>>
BottomSheets源码解析
查看>>
.net4.0注册到IIS ,重新注册IIS ,iis注册
查看>>
Sharepoint学习笔记—其它—如何知道某个Sharepoint环境的安装类型
查看>>
【转】【矩阵】坐标的矩阵变换
查看>>
Linux /proc、/dev Principle
查看>>
php操作mongodb中的ISODate格式日期
查看>>
hdu 3183 A Magic Lamp (rmq)
查看>>
MVC模式下如何实现RegisterStartupScript等功能
查看>>
集合(三)CopyOnWriteArrayList
查看>>
sql连接查询
查看>>
UIWebView 加载网页、文件、 html
查看>>
在Silverlight程序中使用Thread一个很容易被忽略的问题
查看>>
LLBL Gen 元数据编程 LLBL Gen Meta-data Programming
查看>>
第五节 21类型化DataSet
查看>>
40个有创意的jQuery图片和内容滑动及弹出插件收藏集之二
查看>>
Tomcat、Weblogic、Websphere
查看>>
06.Java虚拟机问题
查看>>
学习笔记|AS入门(三) 布局篇
查看>>