2022年「百强AI论文」出炉：清华紧随谷歌排名第二

谷歌仍然全球领先，OpenAI每两篇论文就有一篇进百大！

人工智能领域的创新步伐越来越快，论文数量也呈爆炸式增长，甚至达到了人力无法阅读的程度。

在2022年发表的海量论文中，哪些机构的影响力最大？哪些论文更值得读？

最近外媒Zeta Alpha用经典的引用次数作为评估指标，收集整理了在2022年最高引的100篇论文，并分析了不同国家、机构在过去三年里发表的高引论文数量。

美国仍然领先，中国第二

按国家来划分的话，美国仍然占据领先地位，不过在Top-100论文中所占的比例相比2020年来说大幅下降。

中国排行第二，数据相比去年略有上涨；第三位是英国，DeepMind去年产出占英国总数的69%，超过了前几年的60%；新加坡和澳大利亚在AI领域的影响力也超出分析师的预期。

按照组织来划分的话，可以看到谷歌始终是AI领域的最强者，紧随其后的是 Meta、微软、加州大学伯克利分校、DeepMind和斯坦福大学，国内排行第一的是清华大学。

作为Meta AI的带头人，Yann LeCun也自豪地宣布Meta在行业内的影响力，并表示Meta AI更重视出版质量，而不是出版数量。

至于同属于Alphabet的谷歌和DeepMind在列表中单独计算的问题，LeCun表示DeepMind一直坚称它们独立于谷歌运营，这很奇怪，谷歌员工无法访问 DeepMind的代码库。

尽管如今人工智能研究大多由工业界引领，单个学术机构产生的影响不大，但由于长尾效应，学术界整体来说还是和工业界持平的，当按照组织类型对数据进行聚合时，可以看到二者的影响力大体是相等的。

如果回顾过去三年，统计各个机构总的研究成果数量，可以看到谷歌仍处于领先地位，但与其他机构相比差距要小得多，值得一提的是，清华大学紧随谷歌排行第二。

OpenAI和DeepMind甚至没有进入前20名，当然，这些机构发表的文章数量较少，但每篇文章的影响力都很大。

如果按照出版量进入Top-100的比例来看，OpenAI独树一帜，在转化率上远超其他机构，基本上两篇论文中就有一篇成为「年度百大论文」。

当然，从ChatGPT的火爆来看，OpenAI确实很擅长营销，一定程度上促进了引用量的提升，不可否认的是，他们的研究成果质量非常高。

论文收集方法

首先在Zeta Alpha平台上收集每年被引用最多的论文，然后手动检查第一个发表日期（通常是arXiv预印本）归类到对应的年份中。

通过挖掘Semantic Scholar上高引的人工智能论文来补充这个列表，其覆盖面更广，而且能够按引用次数进行排序，主要是从影响力很大的封闭来源出版商（例如《自然》、《爱思唯尔》、《施普林格》和其他杂志）那里获得额外的论文。

然后将每篇论文在 Google Scholar 上的引用次数作为代表性指标，并根据这个数字对论文进行排序，得出一年内排名前100位的论文。

对于这些论文，使用GPT-3提取作者、他们的附属机构和国家，并手动检查这些结果(如果国家在出版物中没有体现的话，采用该组织总部所在的国家)。

拥有多个机构的作者的论文对每个附属机构各计数一次。

2022年五强论文

1. AlphaFold Protein Structure Database: massively expanding the structural coverage of protein-sequence space with high-accuracy models

论文链接：https://academic.oup.com/nar/article/50/D1/D439/6430488

发表机构：欧洲分子生物学实验室，DeepMind

AlphaFold DB：https://alphafold.ebi.ac.uk

引用量：1331

AlphaFold蛋白质结构数据库AlphaFold DB是一个可公开访问的、广泛的、高准确度的蛋白质结构预测的数据库。

在DeepMind的AlphaFold v2.0的支持下，该数据库使已知蛋白质序列空间的结构覆盖面得到了空前的扩展。

AlphaFold DB提供了对预测的原子坐标、每个残基和成对的模型置信度估计以及预测的对齐误差的程序化访问和互动式可视化。

AlphaFold DB的初始版本包含了超过36万个预测结构，涵盖了21种模式生物的蛋白质组，未来将扩展到UniRef90数据集的大部分（超过1亿）代表性序列。

2. ColabFold: making protein folding accessible to all

论文链接：https://www.nature.com/articles/s41592-022-01488-1

代码链接：https://github.com/sokrypton/colabfold

环境链接：https://colabfold.mmseqs.com

引用量：1138

ColabFold通过将MMSEQS2的快速同源搜索与AlphaFold2或Rosettafold相结合，从而加速了对蛋白质结构和复合物的预测。

ColabFold在模型利用率上可以实现40-60倍加速的搜索和优化，能够在仅具有一个图形处理单元的服务器上预测近1000个结构。

ColabFold在Google Colaboratory的基础上，成为了一个蛋白质折叠的免费且可访问的平台，也是一个可用的开源软件。

3. A ConvNet for the 2020s

论文链接：https://arxiv.org/pdf/2201.03545.pdf

引用量：835

视觉识别的「Roaring 20s」（咆哮的20年代）始于视觉Transformer（ViTs）的引入，它迅速取代了ConvNets成为最先进的图像分类模型。

另一方面，一个最简单的ViT在应用于通用计算机视觉任务时仍然面临着一些难题，如物体检测和语义分割。

层次化Transformer（如Swin Transformers）重新引入了几个ConvNet先验，使得Transformer作为通用视觉模型骨干实际上是可行的，并在各种视觉任务中表现出显著的性能。

然而，这种混合方法的有效性仍然主要归功于Transformers的内在优势，而不是Convolutions的内在归纳偏见。

在这项工作中，研究人员重新审视了设计空间，并测试了纯ConvNet所能实现的极限。

逐步将一个标准的ResNet「现代化」成ViT的设计，并在这一过程中发现了几个促成性能差异的关键组件，探索后发现了一个称为ConvNeXt的纯ConvNet模型系列。

ConvNeXt完全由标准的ConvNet模块构成，在准确性和可扩展性方面与Transformer不相上下，在COCO检测和ADE20K分割方面取得了87.8%的ImageNet top-1准确性，并超过了Swin Transformers，同时保持了标准ConvNets的简单性和效率。

4. Hierarchical Text-Conditional Image Generation with CLIP Latents

论文链接：https://arxiv.org/abs/2204.06125

引用量：718

像CLIP这样的对比式模型（Contrastive models）已经被证明可以学习到稳健的图像表征，能够捕捉到语义和风格。

为了利用这些表征来生成图像，研究人员提出了一个两阶段的模型：一个给定文本标题生成CLIP图像embedding的先验，以及一个以图像embedding为条件生成图像的解码器。

实验证明可以显式地生成图像表征能够提高图像的多样性，在逼真度和标题的相似性方面损失最小，并且以图像表征为条件的解码器也能产生图像的变化，保留其语义和风格，同时改变图像表征中不存在的非必要细节。

此外，CLIP的联合embedding空间使language-guided下的图像操作能够以zero-shot的方式进行。

对解码器使用扩散模型，并对先验的自回归和扩散模型进行实验，发现后者在计算上更有效率，能够生成质量更高的样本。

5. PaLM: Scaling Language Modeling with Pathways

论文链接：https://arxiv.org/pdf/2204.02311.pdf

引用量：426

大型语言模型已被证明在各种自然语言任务中使用few-shot学习即可达到更高的性能，极大地减少了使模型适应特定应用所需的特定任务训练实例的数量。

为了进一步了解scale对few-shot学习的影响，研究人员训练了一个5400亿参数、密集激活的Transformer语言模型Pathways Language Model（PaLM）。

使用Pathways（一个新的ML系统，能够在多个TPU Pods上进行高效的训练）在6144个TPU v4芯片上训练得到PaLM，通过在数百个语言理解和生成基准上取得最先进的few-shot学习结果证明了scaling的好处。

在其中一些任务上，PaLM 540B实现了突破性的性能，在一套多步骤推理任务上超过了微调的最先进水平，并在最近发布的BIG-bench基准上超过了人类的平均性能。

大量的BIG-bench任务显示了模型规模的不连续改进，也意味着当规模扩大到最大的模型时，性能陡然提高。

PaLM在多语言任务和源代码生成方面也有很强的能力，这一点也在一系列基准测试中得到了证明。

此外，研究人员还对偏见和毒性进行了全面的分析，并研究了与模型规模有关的训练数据记忆程度，最后讨论了与大型语言模型有关的伦理考虑，并讨论了潜在的缓解策略。

2022年国内五强论文

1. Swin Transformer V2: Scaling Up Capacity and Resolution

论文链接：https://arxiv.org/pdf/2111.09883.pdf

代码链接：https://github.com/microsoft/Swin-Transformer

引用量：266

大规模的NLP模型已经被证明可以显著提高语言任务的性能，而且没有饱和的迹象，同时还展示了像人类一样的惊人的few-shot能力。

这篇论文旨在探索计算机视觉中的大规模模型，解决了大型视觉模型训练和应用中的三个主要问题，包括训练的不稳定性，预训练和微调之间的分辨率差距，以及对有标签数据的需求。

研究人员提出了三种主要技术：

1）一种与余弦注意相结合的残差-后规范方法，以提高训练的稳定性；

2）一种对数间隔的连续位置偏差方法，以有效地将使用低分辨率图像预训练的模型转移到具有高分辨率输入的下游任务中；

3）一种自监督的预训练方法SimMIM，以减少对大量标记图像的需求。

通过这些技术，成功地训练了一个30亿参数的Swin Transformer V2模型，这是迄今为止最大的稠密视觉模型，并使其能够用高达1,536×1,536分辨率的图像进行训练。

在4个代表性的视觉任务上创造了新的性能记录，包括ImageNet-V2图像分类、COCO物体检测、ADE20K语义分割和Kinetics-400视频动作分类。

同时可以注意到该训练比谷歌的十亿级视觉模型中的训练效率要高得多，所消耗的有标签数据和训练时间要少40倍。

2. Ensemble unsupervised autoencoders and Gaussian mixture model for cyberattack detection

之前的研究采用了具有降维功能的无监督机器学习来进行网络检测，仅限于对高维和稀疏数据进行鲁棒的异常检测。

大多数方法通常假设每个领域的参数是同质的，具有特定的高斯分布，忽视了数据偏度的鲁棒性测试。

论文链接：https://www.sciencedirect.com/science/article/pii/S0306457321003162

引用量：145

这篇论文提出使用连接到高斯混合模型（GMM）的无监督集合自编码器来适应多个领域，无需考虑每个领域的偏度（skewness）。

在集成自编码器的隐藏空间中，利用了基于注意力的潜在表征和重建的最小误差的特征，使用期望最大化（EM）算法来估计GMM中的样本密度，当估计的样本密度超过训练阶段获得的学习阈值时，该样本被识别为与异常有关的离群点。

最后，对集成自编码器和GMM进行联合优化，将目标函数的优化转化为拉格朗日对偶问题，在三个公共数据集上进行的实验验证了所提出的模型的性能与所选择的异常检测基线相比有明显竞争力。

论文共同一作为来自宁波工程学院的安鹏教授和同济大学的Zhiyuan Wang。

安鹏教授目前是宁波工程学院电子与信息工程学院副院长，2000年至2009年就读于清华大学工程物理系，获工学学士学位、工学博士学位；欧洲核子研究中心、意大利国家帕多瓦大学、德国海德堡大学访问学者，中国自动化学会认知计算与系统专业委员会委员、中国人工智能学会认知系统与信息处理专业委员会委员、中国指挥与控制学会青年工作委员会委员；主持并参与国家重点基础研究发展计划（973计划）、国家自然科学基金、国家星火计划项目等多项科研项目。

3. Scaling Up Your Kernels to 31x31: Revisiting Large Kernel Design in CNNs

论文链接：https://arxiv.org/abs/2203.06717

代码链接：https://github.com/megvii-research/RepLKNet

引用量：127

文中回顾了现代卷积神经网络(CNN)中的大核设计。

受视觉Transformer(ViTs)最新进展的启发，该论文证明了使用几个大的卷积内核代替一堆小的内核可能是一个更强大的范例。

研究人员提出了五个指导方针，例如，应用重新参数化的大深度卷积，来设计高效的高性能大内核 CNN。

根据这些指导方针提出了RepLKNet，一个纯粹的 CNN 架构，其内核大小为31x31，与通常使用的3x3形成对比，RepLKNet 极大地缩小了 CNN 和 ViTs 之间的性能差距，例如在 ImageNet 和一些典型的下游任务上，以较低的延迟实现了与 Swin Transformer 相当或更好的结果。

RepLKNet 对大数据和大模型也表现出很好的可扩展性，在 ImageNet 上获得了87.8% 的最高准确率，在 ADE20K 上获得了56.0% 的 mIoU，在具有类似模型大小的最先进技术中是非常有竞争力的。

该研究进一步表明，与小核 CNN 相比，大核 CNN 具有更大的有效接收场（receptive fields）和更高的形状偏差，而不是纹理偏差。

4. TensoRF: Tensorial Radiance Fields

论文链接：https://arxiv.org/abs/2203.09517

引用量：110

文中提出了TensoRF，一种对辐射场（radiance fields）进行建模和重构的新方法。

与纯粹使用MLP的NeRF不同，研究人员将场景的辐射场建模为一个4D张量，代表了一个具有每体素多通道特征（per-voxel multi-channel features）的三维体素网格，其中心思想是将4D场景张量分解为多个紧凑的低秩张量成分。

证明了在该框架中应用传统的CP分解，将张量分解为具有紧凑向量的rank-one components会获得比普通的NeRF更好的性能。

为了进一步提高性能，文中还引入了一种新的矢量-矩阵（VM）分解，放松了张量的两种模式的低秩约束，并将张量分解为紧凑的矢量和矩阵因子。

除了更好的渲染质量，该模型与CP和VM分解相比，直接优化每象素特征的先前和同时进行的工作导致了显著的内存占用。

实验证明，与NeRF相比，采用CP分解的TensoRF实现了快速重建（<30分钟），具有更好的渲染质量，甚至更小的模型尺寸（<4MB）。

此外，采用VM分解的TensoRF进一步提高了渲染质量，并超过了以前最先进的方法，同时减少了重建时间（<10分钟）并保留了紧凑的模型大小（<75 MB）。

5. VideoMAE: Masked Autoencoders are Data-Efficient Learners for Self-Supervised Video Pre-Training

论文链接：https://arxiv.org/abs/2203.12602

代码链接：https://github.com/MCG-NJU/VideoMAE

引用量：100

为了在相对较小的数据集上实现更高的性能，通常需要在额外的大规模数据集上预训练视频Transformer。

这篇论文表明视频掩码自动编码器（VideoMAE）是用于自监督视频预训练（SSVP）的数据高效学习器。

受到最近的ImageMAE的启发，研究人员提出了具有极高掩码比例的定制视频管（video tube），这种简单的设计使视频重建成为一项更具挑战性的自监督任务，从而鼓励在这个预训练过程中提取更有效的视频表征。

在SSVP上获得了三个重要的发现：

（1）极高比例的掩码率（即90%到95%）仍然能产生VideoMAE的有利表现。时间上冗余的视频内容使得掩蔽率比图像更高。

(2) VideoMAE在非常小的数据集（即大约3k-4k的视频）上取得了非常高的性能，而没有使用任何额外的数据。

(3) VideoMAE表明，对于SSVP来说，数据质量比数据数量更重要。

预训练和目标数据集之间的领域迁移是一个重要问题。

值得注意的是，VideoMAE与普通的ViT可以在Kinetics-400上达到87.4%，在Something-Something V2上达到75.4%，在UCF101上达到91.3%，在HMDB51上达到62.6%，而无需使用任何额外的数据。

完整百强论文列表

责任编辑：张燕妮来源：新智元

产品

案例

文档

IM即时通讯云

客服云

客服机器人

部署方式

产品方案

核心优势

行业应用

开发文档

下载中心

生态伙伴

2022年「百强AI论文」出炉：清华紧随谷歌排名第二

美国仍然领先，中国第二

论文收集方法

2022年五强论文

2022年国内五强论文

相关推荐

周排行

申请试用

提交后工作人员会尽快与您联系进行功能演示

技术咨询已转移到管理后台，请先登录

注册享福利、赢好礼