文 _ 茅奕(清华大学天文系)
频年来,尤其是ChatGPT和DeepSeek等大讲话模子火爆出圈后,“东谈主工智能+”成了最火最潮的关节词。在21厘米天地学范围,早在2017年就出现了第一篇应用机器学习的论文,随之而来,东谈主工智能也在这个范围得到了无为应用。笔者发表了近十篇相关将机器学习应用于21厘米天地学的学术论文,见证了这个范围茂密发展的历程,也对这个范围的优劣势有着泄露的结实。环球也许惊诧于东谈主工智能不错接收现实中好多东谈主类的责任,在天体裁范围,东谈主工智能更是一把利器,成为在问题导向下为贬责具体天体裁科知识题而出身的新本领、新器用和新算法。本文对付东谈主工智能在21厘米天地学范围的科学应用作念一简要先容。
小引
东谈主工智能的出现和发展由来已久。1997年,IBM公司研制的超等野神思“深蓝”初度在细致比赛中校服了宇宙冠军得到者、海外象棋众人卡斯帕罗夫(Garry Kasparov),触动了全宇宙,但那时东谈主们以为海外象棋规定下的走法变化不够复杂,东谈主工智能真的走向熟习的标记性事件应是对东谈主类围棋能手的挑战。此后经过近20年的漫长发展,2016年,谷歌旗下的DeepMind公司研制的东谈主工智能围棋软件AlphaGo终于上前宇宙围棋第一东谈主、韩国名将李世石九段发起挑战。这场东谈主机大战以总比分4 :1落下帷幕,机器第一次在围棋规定下打败东谈主类能手。打败李世石的东谈主工智能围棋软件的版块是AlphaGo Master,其诳骗的是深度学习算法和蒙特卡洛树搜索算法,并在进修过程顶用到了宽敞专科东谈主类棋手的棋谱和棋战数据。2017年,AlphaGo Master进一步升级为AlphaGo Zero,弥散遗弃了东谈主类棋谱,一切从零驱动,仅依靠自我对弈产生的数据进修出了宇宙上最苍劲的围棋棋艺——AlphaGo Zero对战AlphaGo Master的胜率达到90%。
AlphaGo Master与李世石的东谈主机对决。图片来自谷歌公司
AlphaGo的雄壮得手深深震撼了宇宙,也在科学家心中“种上了草”:怎样能够将东谈主工智能的超强智商应用到科学盘问中,让机器替代东谈主类作念一些事情,致使贬责过去不可贬责的科知识题?这便是“AI for Science”的核神志念。
2017年,21厘米天地学范围第一个“吃螃蟹”的责任出现了。法国巴黎天文台的天体裁家岛袋隼士(Hayato Shimabukuro)博士和贝努瓦·塞梅林(Benoit Semelin)造就通过引入最纯粹的一类机器学习收集——东谈主工神经收集,终清亮通过21厘米功率谱数据精准重构天地再电离模子参数。为了融会他们的责任,咱们率先需要了解什么是天地再电离模子参数、21厘米功率谱以及东谈主工神经收集。
天地再电离时间和21厘米天地学
在天地大爆炸后,跟着天地不断推广,温度迟缓裁减,电离态的氢(质子)和电子在天地38万年时联结成为中性的氢原子,同期酿成了天地微波布景辐射。这个期间,星系还莫得酿成,天地插手“黯澹时间”。大要在天地1亿年的期间,第一代星系才驱动出现,它们发出的星光划过黯澹的天地,咱们称这一时期为“天地早晨”。第一代星系发出的星光中有一部分的能量很高,能够把中性的氢原子再行电离掉,也即把中性氢原子里面的电子给“打”出去,再行酿成电离态的氢,这个过程便是天地再电离。再电离并不是均匀发生的,这些电离氢率先在第一代星系周围酿成一个个泡状结构。跟着第一代星系越来越多,这些泡会逐步推广扩张,随后多个电离泡际遇一齐发生并合,酿成形态不规定的更大的泡。最终纯粹在天地十几亿年的期间,通盘天地被弥散电离,天地再电离时间收尾。
天地处于50%的电离阶段的模拟图。图片来自周萌和笔者尚未发表的论文
天地再电离是天地大爆炸表面的势必引申,但是由于第一代星系的物感性质在不雅测和表面上齐存在雄壮的不笃定性,奏凯导致咱们现在对天地再电离时间,如再电离过程的平均历史、电离泡的成团性等的结实存在很大的不笃定空间。对再电离建模的一种作念法是引入唯象模子,其中包含几许未知参数。在将来,可通过再电离的不雅测数据对这些再电离模子参数进行适度,继而对再电离的物感性质进行推断。现在咱们对天地再电离的不雅测适度主要来自三种不雅测探针——天地微波布景辐射、莱曼阿尔法丛林、莱曼阿尔法辐射天体。但是,就像盲东谈主摸象同样,它们只可对再电离的某一项性质进行适度。如若咱们想对天地再电离时间有一个好意思满而清亮的融会,那么最好的不雅测探针是中性氢21厘米谱线的强度映射,它就像对大象作念全身CT扫描同样,不错对处于再电离时间的天地作念层析摄影。
在中性氢里面,有一个电子围绕氢原子核(质子)旋转,电子的自旋和质子的自旋之间有微弱的相互作用。如若电子的自旋主义发生了回转,在这个过程中氢原子会发出一个波长21厘米、频率1.4吉赫兹的微弱光子。在氢原子的光谱中,这条谱线被称为“21厘米谱线”。由于氢是天地中品貌最大的元素,从天地黯澹时间、天地早晨、天地再电离时间到左近天地,齐充斥着氢,因此21厘米谱线亦然射电波段最显赫的谱线。这条谱线在不同历史时期辐射后,在漫长的传播过程中资格了不同进程的天地学红移,因此在今天不雅测到的频谱中就体现为不同的不雅测频率。咱们不错通过在不同不雅测频率处、不同天外极坐标上得到的21厘米谱线强度重构出在不同历史时期、不同三维位置上的中性氢气体的物感性质,如物资密度、中性度、温度等,由此得名21厘米层析摄影。
通过21厘米谱线强度展示天地在某个方朝上的演化(基于模拟数据)。图片来自ZHAO X, MAO Y, CHENG C, WANDELT B D. Simulation-Based Inference of Reionization Parameters from 3D Tomographic 21cm Light-cone Images [J]. The Astrophysical Journal, 2022, 926(2): 151
通过面向21厘米谱线的强度测量,咱们至少不错索要三种物理量信息。一种是各个主义平均后的全天温度频谱,这不错用微型的单口径天线测得,但波折是空间差异率很低,即不知谈光是从哪个主义来的。如若想提高千里镜的空间差异率,就需要扩大射电千里镜的口径,但单口径天线的大小是有极限的。现活着界上最大的单口径射电千里镜是我国的“天眼”(FAST),正如它的全称“500米口径球面射电千里镜”所示,它的口径是500米。
如若要进一步扩大口径,东谈主们猜想的办法是让多个天线两两干预,酿成射电干预阵列,从而提高空间差异率。天然,这种射电干预的作念法并莫得扶直千里镜的贤慧度,因为贤慧度是由千里镜招揽到的光子数目决定的,此后者由千里镜的招揽面积所决定。第一代面向再电离时间的射电干预阵列,包括位于我国新疆的21厘米阵列(21CMA),它们的贤慧度齐不高,不可终了21厘米层析术的图像数据测量。这些实验最奏凯的科学方针便是测量21厘米谱线强度的统计搬动,更准确地说,是它在傅立叶空间散布的两点关联函数,术语叫作“21厘米功率谱”。这是面向21厘米谱线强度测量的第二种物理量。
平日公里阵列(SKA)。图片来自SKAO
正在建造中的第二代面向再电离时间的射电干预阵列有两个,一个是中国手脚首创成员国参与的海外大科学工程——平日公里阵列射电千里镜(SKA),另一个是好意思国主导的氢再电离纪元阵列千里镜(HERA)。HERA的科学方针是测量来自天地再电离时间的21厘米谱线强度功率谱,而SKA的方针除了测量功率谱,还有终了更高的贤慧度,从而对再电离时间的天地进行21厘米层析摄影。层析摄影是面向21厘米谱线强度测量的第三种物理量,亦然最终的方针。
第一个“吃螃蟹”的责任
让咱们回到第一个将机器学习应用到21厘米天地学的责任,即岛袋隼士博士和塞梅林造就2017年的责任(以下简写稿“岛袋—塞梅林2017年的责任”)。在这项责任里,作家在假定将来已测得21厘米谱线功率谱的情况下,通过东谈主工神经收集,贬责从功率谱对天地再电离模子参数进行精准重构的问题。
什么是东谈主工神经收集?依照芬兰野神思科学家托伊沃·科霍宁(Teuvo Kohonen)给出的界说:“东谈主工神经收集是一种由具有自顺应性的纯粹单位组成的无为并行互联的收集,它的组织结构能够模拟生物神经系统对真实宇宙所作念出的交互反应。”东谈主工神经收集由一个输入层、一个或多个粉饰层和一个输出层组成,其中输入层从外部源(数据文献、图像等)招揽一个数据组,输出层提供一个终了收集功能的数据组。为什么东谈主工神经收集在得到一个进修集之后,能够领有苍劲的学习智商呢?玄妙就在粉饰层里。一个典型的东谈主工神经收集包含几许粉饰层,每个粉饰层由几许东谈主工神经元组成,每个神经元招揽来自上一个粉饰层的神经元的输入,将它们乘以分拨的权重后相加,然后将总额传递给下一个粉饰层的一个或多个神经元。东谈主工神经收集索要输入层数据的各式特征,并将其用不同收集节点采集起来,通过不断调动采集的收集权重,将收集得到的输出层数据与进修集已知(“正确”)的输出层数据比较较,直到收集得到的输出层数据最接近“正确”的谜底,这便是进修收集(或者说“学习”)的过程。
东谈主工神经收集的架构。图片来自wikitechy
在岛袋 — 塞梅林 2017 年的责任里,输入层是 21 厘米功率谱数据(共 14 个处于不同波数的值),输出层是天地再电离模子参数数据(共 3 个),粉饰层只接收了一层(共 14 个神经元)。通过这么一个极其纯粹的东谈主工神经收集架构,作家终清亮对天地再电离模子参数的高精度重构。
手脚第一个在21厘米天地学里“吃螃蟹”的责任,岛袋—塞梅林2017年的论文取得了雄壮的得手。这一责任从认识上标明机器学习不错极地面简化21厘米功率谱数据的处理,但是它存在一个致命残障,使它与试验应用还隔着一条范围。这个残障便是他们的责任只可找到最“正确”的输出层数据,但是无法对输出层数据的统计纰谬作念后验推断(即贝叶斯推断);换句话说,他们的责任只可在参数空间里找到拟合最“好”的点(所谓的“点猜测”),但是不可告诉咱们这个最“好”的点有多“好”。人所共知,统计纰谬猜测是数据分析里最蹙迫的部分,夸张极少地说,抛开纰谬谈拟合齐是不科学的。那么,咱们应该怎样贬责这个蹙迫的问题呢?
第一个“吃龙虾”的责任
笔者在清华大学的团队长久从事天地再电离时间和21厘米天地学的盘问,自从闲隙到岛袋—塞梅林2017年的责任,咱们的盘问就驱动插手机器学习的科学应用范围。初期,咱们曾尝试将三维卷积神经收集应用到21厘米图像数据的压缩过程,从而终了从21厘米层析图像对天地再电离模子参数进行重构,这亦然对岛袋—塞梅林2017年的责任的履行。然则,笔者很知足志到上文提到的“点猜测”残障,并驱动插手机器学习的不笃定性量化分析范围,最终在2019年暑期造访法国巴黎天体物理盘问所时,与本杰明·万德尔特(Benjamin Wandelt)造就配合,将无似然推断(likelihood-free inference)引入21厘米天地学。笔者团队2022年发表的一篇论文初度在21厘米天地学上终了对机器学习索要的物理量进行统计纰谬的贝叶斯推断,贬责了上述问题。这个新本领现在已成为21厘米天地学贝叶斯推断的表率作念法。因此,相关于第一个“吃螃蟹”的责任,笔者戏称这一责任是第一个“吃龙虾”的责任。
马尔可夫链蒙特卡洛本领是一组用马氏链从就地散布取样的算法,图为MCMC 的本领经过。图片来自StatLect
底下纯粹先容一下无似然推断的基本念念想。在传统的马尔可夫链蒙特卡罗算法(MCMC)里,贝叶斯推断需要假定似然函数的具体函数时势,一般为高斯函数。无似然推断遗弃了这一假定,具体来说,通过正则流的技艺,即一系列非线性变换,将一个蓝本非高斯散布的参数空间明白并映射到一系列高斯散布的参数空间,从而将非高斯时势的似然函数写为一系列高斯时势的似然函数乘以分拨的权重后乞降,而每个高斯散布的均值、权重和协方差的数值不错通过进修集数据进行进修得到。因此无似然推断仍然需要野心似然函数,不错融会为它对似然函数的野心是通过进修集数据进修出的似然函数数值大小,仅仅不再需要对似然函数的具体函数时势作念假定,是这个真谛上的“无似然”。
结语与预测
本文仅展示了机器学习的一个具体科学应用主义,即参数推断,其本色上属于模式识别。机器学习在21厘米天地学范围还有好多其他主义的应用,比如模子分类、物理量和图像的模拟器(emulator)、射电出路扣除等。囿于篇幅,这里不逐一张开。这些齐是基于监督式学习的算法,而况仍是得到无为应用。然则,由于总计基于监督式学习的算法本色上齐依赖于具体模子,岂论这种模子是再电离模子、出路模子、噪声模子照旧仪器系统反馈模子,它们关于再电离21厘米不雅测齐带有不准确性。因此,笔者临了想指出的是,天然基于非监督式学习的算法,由于自己尚未熟习开yun体育网,现在还莫得得到爱重,但是东谈主工智能特殊科学应用更稠密的出路可能正在于这类算法的开辟,它将会带来鼎新性的范式颠覆,产生更深刻的影响。