大数据时代,“小数据”有未来吗?武汉纺织大学数理科学学院江健教授团队与美国密歇根州立大学Guo-wei Wei教授团队共同研究认为:“有!”相关研究成果日前在线发表在国际期刊《化学评论》上。
小数据面临的挑战分析
由于数据获取中存在时间、成本、伦理、隐私、安全等各种限制,小数据在科学和工程研究中非常常见。江健认为,大数据处理与分析一直是过去十年到现在的焦点,小数据集及其挑战却很少受到关注,尽管在机器学习和深度学习研究中它们在技术上面临更为严峻的挑战。
他告诉《中国科学报》,总体而言,小数据集挑战往往因数据多样性、填补、噪声、不平衡和高维度等问题而变得更加复杂。幸运的是,当前大数据时代的特点是机器学习、深度学习和人工智能的技术突破,使得数据驱动的科学发现成为可能,而许多为大数据开发的先进机器学习技术无意中为小数据集问题提供了解决方案。因此,过去十年中,针对小数据挑战的机器学习和深度学习取得了重大进展。
该论文总结并分析了包括化学、生物、医药、材料在内的分子科学中小数据集挑战的几种潜在的新兴解决方案。论文详细地从逻辑回归、K近邻、支持向量机、核函数学习、随机森林和梯度提升树,以及更先进的技术,包括人工神经网络、卷积神经网络、U-net、图神经网络、生成对抗网络、长短期记忆、自编码器、transformer、迁移学习、主动学习、基于图的半监督学习,以及基于物理模型的数据增强技术等方面讨论了这些方法的最新进展,并对小数据集挑战未来发展趋势做了相关展望。
武汉纺织大学数理科学学院相关负责人介绍,江健一直从事药物设计、复杂网络建模等交叉学科方面的研究,其所在的计算系统生物学团队近5年来,在单细胞测序数据分析、药物设计及发现、蛋白质结构预测和高光谱图像处理等研究领域取得了一系列研究成果。
科学家研究认为:大数据时代“小数据”仍有未来
中国科学报:https://rmtzx.sciencenet.cn/mixmedia/a/202307/04/WS64a428c6e4b0131e6521100a.html