各个领域在近二十年来取得突破性的研究进展【PPT课件】

2020-11-17 08:57:16 本页面

【导读】各个领域在近二十年来取得突破性的研究进展。计算机技术,网络技术和传感技术的飞速发展。来自各个巡天计划和天文台的“数据雪崩”。科学家,工程师和领域专家的缺乏。更大,更便宜的存储器。更快,更便宜的信息处理器。数据:原始的,未解释的信号或者符号,如:1. 象,或者发现以前未知种类的天体或新天文现象.模式识别和人工智能。机器学习和神经网络。事件驱动性数据挖掘。已知事件/未知算法:用模式识别或数据的聚类特性来发现在。PCA通过寻找变量最大投影轴,判断有多少。相比于反射映射或交叉相关方法,PCA对样。输入量一般要先用PCA预处理。EM算法提供了星系在红移空间。库中数据的大小范围特征,同时,利用AIC&BIC变坏的概率评价符合程度。优于标准的色选择技巧,在于其证认天体是。概率密度分布要受到维数的限制,而EM算。其描述了数据的正常分布,从而可以在高维

文章介绍图

  

【正文】
各个领域在近二十年来取得突破性的研究进展
计算机技术,网络技术和传感技术的飞速发展
来自各个巡天计划和天文台的“数据雪崩”
科学家,工程师和领域专家的缺乏
更大,更便宜的存储器
--磁盘密度以Moore’slaw增长
“每次18个月增长一倍”
--存储器价格飞快下降
更快,更便宜的信息处理器
--分析更多的数据
--适应更多复杂的模型
--引起更多查询技术
--激起更强的可视化技术
特征:
--以Tebyte甚至Pebyte计量
--不均匀性
--动力学性
--高维性(加上时间维可达13维甚至更高维)
数据:原始的,未解释的信号或者符号,如:1
信息:有一定解释或意义的数据,如:
知识:综合信息形成的观点和普适性的理论
智慧:能够综合知识和经验用以生存计划的
人类思维的结晶
定义:半自动或自动地从海量数据中发现模式,相关性,
变化,反常规律性,统计上的重要结构和事件.在
天文上,就是从海量数据中发现稀有的天体或现
象,或者发现以前未知种类的天体或新天文现象.
特点:半自动或自动
提取
预测
大数据库
前者:发现驱动(数据驱动)
数据研究
后者:假设驱动(人为驱动)
研究数据
统计学
机器学习
数据库
高效率的计算
Gauss,Fisher,和
--最小二乘法,最大似然法
--一些基本原理的发展
数学时代
--1950`s:Neyman等数学家独领风骚
计算时代
--自从1960`s平稳增长
--1970`s:EDA,Bayesianestimation,
flexiblemodels,EM,etc
--逐渐意识到计算机在数据分析中的
能力和作用
模式识别和人工智能(AI)
--集中于感官问题,如:语言识别,图像识别
--1960`s:统计方法与非统计方法的分流
--应用统计学与工程学的交叉
如:统计图像分析
机器学习和神经网络
--1980`s非统计学习方法的失败
--flexiblemodels的出现,如:树,网络
--应用统计学与学习方法的交叉
直接演化的结果:
--AI和机器学习
*1989KDD工作组2020ACMSIGKDD工作组
*集中于自动发现
--数据库研究
*大型数据组
*SIGMMODassociationrules,scalablealgorithms
--数据管理者
*如何处理数据
*面向客户
*工业占主导的,面向应用
描述性模型:描述数据中的模式,用以创建有意义的
群或子群
预测性模型:在从已知条件中确定的模式基础上,预
测一些现象或数值
事件驱动性数据挖掘
相关驱动性数据挖掘
已知事件/已知算法:用已有的物理模型去确定数据中存在的
人们感兴趣的已知现象,无论空间上或时间上
已知事件/未知算法:用模式识别或数据的聚类特性来发现在
已知现象中存在新的观测相关性
未知事件/已知算法:以天文现象的观测参数中存在着预期的
相关性来预测数据中存在着以前未知的事件
未知事件/未知算法:用临界值确定瞬时事件或独特事件,从而
发现新现象
空间相关:在天空中的同一位置证认天体
时间相关:证认发生在相同时间或相关时间的
事件或现象
一致相关:用聚类方法证认存在于同一多维参
数空间的现象
天体的交叉证认
天体的交叉相关
最近邻规则证认
系统的数据探索
原理:以源的位置为参量,将存在于不同数据库
中的源联系起来,用以加深对证认源的新
的天文理解
例子:gamma-ray暴的对应体
问题:多波段数据库的交叉证认会产生一对一,
一对多,多对一,多对多,甚至多对无,对于
除一对一的情况,有时需要用概率方法处

原理:用假定分析方法处理数据中的所有参数
例子:在HDF巡天中,通过双色图中作为U波段
的“dropouts”证认远距离星系
在DPOSS和SDSS巡天中,通过双色图中
远离正常恒星区的特性发现高红移类星

原理:在多维空间中运用聚类算法证认天体或现象
例子:在TW长蛇座中过通过天体具有相似的运动学
特征,X射线发射,Hα和Li丰度,发现了人们最
熟悉的年轻恒星族
原理:在数据库中广泛地应用事件驱动性和相关
驱动性数据挖掘技术以偶然发现一种新天
体或新类型天体
例子:新类型变星的发现,如:在MACHO数据中发
现的“bumpers”
主分量分析方法
人工神经网络
EM算法
决策树
&…
(一)应用举例:
利用光谱将K矮星从K巨星中区分出来
恒星,星系和类星体的光谱分类
星系的形态分类
自动的红移确定
通过将发射线分解为几个独立量来研究
发射区的发射线的变化及其结构和动力
学特征
在观测基平面,即p维参数空间的一个子
空间中,依据星系的形态,测光和动力学
分类来研究低红移星系和高红移星系
(二)特点和优点:
非监督性
线性分析
PCA通过寻找变量最大投影轴,判断有多少
独立变量,并将相关量组合成新量,这大大可
以减少计算的复杂性,同时保证尽可能小地丢
失信息,即降维
可以用以分解变量为几个独立分量
相比于反射映射或交叉相关方法,PCA对样
品要求不高
对数据预处理,去掉一些不重要或无关量
(一)应用举例:
未分辩双星的光谱分类
恒星光谱分类
APM星系的形态分类
区分恒星和星系
将恒星光谱物理参数化
区别不同活动星系核的光谱
(二)特点和优点:
监督性
训练性
非线性
难理解性
受训练样本限制
输入量一般要先用PCA预处理
若采用傅里叶变换,不需知红移就可以对光谱分类
但在信噪比低时,提高分类的效率,红移可以确定
与传统方法相比,其具有的优点:
不需预先对试验样本的统计分布做假设,对各类不
需要直观判断,该方法可用于处理各种问题
(一)应用举例:
两种情形密度估计:
星系在红移空间的聚类
恒星在色空间的聚类
EM算法提供了星系在红移空间
的平滑分布,准确地描述了数据
库中数据的大小范围特征,同时,
提供了一种证认多维色空间中
的远离正常恒星的天体的方法,
例如:高红移类星体的证认
(二)特点和优点:
利用AIC&BIC变坏的概率评价符合程度
优于最好的带核的密度估计方法对分布的
估计,同时,对输入参数的要求并不严格
优于标准的色选择技巧,在于其证认天体是
建立在概率理论基础上
概率密度分布要受到维数的限制,而EM算
法的维数可具方便而定
其描述了数据的正常分布,从而可以在高维
空间中证认出远离者
(一):应用举例:
分析有关大尺度结构和微波背景
辐射的大尺度巡天
分析巡天的径向速度,如:MarkIII
SFI&ENEAR巡天
(二):特点和优点:
基础:最大概率分析方法估计参数
维纳滤波器重建基底场
蒙特卡罗方法对基底场取样
辅助方法:拟合良好性分析方法
将重建速度场分解成局部量和
外延量的方法
约束N-body和氢动力学的模拟
提供优化工具,可以分析有噪声的,
不完备的,不均匀的高斯分布的随机
场巡天,如:密度场和速度场
混合模型/LatentVariablemodels
--主要思想是基于数据的提取或分类
--概率模型考虑系统方法
*许多模型可以用图表格式表示
*参数可由EM算法获得
*模型结构可自动选择
--在机器学习/神经网络学习中,对这些
模型进行了许多特大的调整
--隐含变量的学习发现结构
(一):分类问题(1):
天体分类:恒星/星系分类,类星体等
方法类型:监督分类和非监督分类
常用方法:主分量分析(PCA)
最小距离方法(MDM)
高斯概率模型(GPM)
神经网(NN)
决策树
(一):分类问题(2):
图像分类:数字底片巡天中恒星/星系区别
常用方法:聚类算法
最近邻规则
模糊集合理论
自组织映射
神经网络
决策树
流行软件包:DAOPhot,FOCAS,Sextractor
(二):数据压缩与分类:
光谱压缩与分类:大红移巡天的星系光谱
大型光谱巡天
常用方法:主分量分析(PCA)
独立分量分析(ICA)
信息瓶颈(IB)
FisherMatrix(FM)
小波变换
KL变换
方法对比:PCA&FM线性分析
ICA&IB非线性分析
异于FM,PCA&IB模型独立
IB监督的波长群在概念上接近FM
ICA在计算上比PCA复杂,数据压缩
效率弱于PCA,但可以较好地分离混
合变量,相反于PCA,ICA对位置,方向,
带通选择的特征量敏感
(三):大尺度结构分析:
例子:分析有关大尺度结构和微波背景辐射
的大尺度巡天
方法:贝叶斯分析(BayesianAnalysis)
(四):重建方法:
例子:大尺度巡天中的速度场重建
在all-skymaps中,从输入的
maps重建独立分量及其频
率大小
方法:维纳滤波器
最大熵方法
主分量分析方法
FastICA
神经网络
小波
扩充数据挖掘算法
将数据挖掘方法应用到新的数据类型
发展分布的数据挖掘算法
提高数据挖掘方法的容易度
观测记录或观测次数的增长
每次观测参量的增长
用以分析一组观测的预测模型数的增长
对交互式反应和真实反应时间减少的要
求的加强
需要多种算法的组合或新的算法
时间序列数据
未组织数据,如文本
半组织数据,如HTML和XML文件
多媒体的合作数据
多层次的,多度量单位的数据
集合数据
数据的分布特性
计算环境越来越普及
必须发展与之匹配的数据挖掘系统和算法
数据挖掘自动化程度的提高
提高用户界面,支持随机用户的浏览
提高大型分布数据的可视化程度
发展用以管理数据挖掘的元数据的技术和系统
发展恰当的语言和协议支持随机提取数据
提高数据挖掘和知识发现的环境收集加工
挖掘可视化以及必要的合作报告
支持单个研究数据挖掘者的研究
支持数据挖掘的基础学科的研究
支持多学科和交叉学科研究组研究
重要的,基础的实用数据挖掘问题
提供对大的,大型的,分布的数据组
挖掘的恰当的实验场所
发展好的非监督分类技巧
发展强而有效的数据可视化技术
各种算法的交叉和重复使用
设计和应用聚类分析方法需要天文学家,
计算机科学家和统计学家的真诚合作
点击复制文档内容
教学课件相关推荐
文库吧 www.wenkub.com
备案图鄂ICP备17016276号-1