近日,匡亚明学院2021级本科生洪运以共同第一作者身份在人工智能顶级会议AAAI会议发表学术论文“DrugHash: Hashing Based Contrastive Learning for Virtual Screening”。该论文通讯作者为南京大学计算机学院李武军教授。AAAI为人工智能领域的顶级会议之一,由人工智能促进协会(The Association for the Advancement of Artificial Intelligence, AAAI)组织,每年举办一次。AAAI 2025(Thirty-Ninth AAAI Conference on Artificial Intelligence)于2025年2月25日-3月4日在美国费城举行。
药物发现是一个周期长、开销大的过程,因为候选药物分子往往具有很高的失败率。虚拟筛选(Virtual Screening)是计算机辅助药物发现中的关键步骤之一,它能发掘更可靠的候选药物分子,从而减少药物发现所需的周期和资源开销。相关研究表明,有效的药物虚拟筛选需要具备一个大规模分子数据库和一个精度较高的药物虚拟筛选方法。现有的分子数据库大小最大已经达到十亿级别,但现有的药物虚拟筛选方法却无法满足实际应用需求。传统的虚拟筛选方法如分子对接过于耗时,无法在大规模数据库上使用。一些基于深度学习的方法大部分通过预测蛋白和分子的交互信息或亲和度的方式来进行训练,受限于可用训练数据的规模,它们的精度无法超过传统的方法。另有方法如DrugCLIP将虚拟筛选建模为通过蛋白质的向量表示检索分子的向量表示的过程,虽然精度较高,但是预先存储大量的实值向量会产生巨大的存储开销,并且从磁盘加载预存储的向量以及向量之间的相似度计算和结果排序的过程也会产生较大的计算开销。
论文提出了一种基于哈希学习的虚拟筛选方法DrugHash,首次将哈希学习的思想应用在药物虚拟筛选领域,以解决虚拟筛选方法应用于大规模分子数据库中的低效问题。DrugHash将虚拟筛选建模为蛋白质的二值向量检索分子二值向量的任务。DrugHash采用多模态哈希和对比学习策略,同时为蛋白质和分子学习二值向量,最大化可以匹配的蛋白质-分子对的相似度,同时最小化不能匹配的蛋白质-分子对的相似度。该哈希策略不仅能在模型训练时起到正则化的作用,从而增强模型鲁棒性,提升检索精度,还能在模型推理时大幅减少存储开销、提升检索速度。

DrugHash方法流程图
论文在两个数据集上测试和比较了不同虚拟筛选方法的检索精度,在大多数场景下,DrugHash的精度都要好于已有最佳方法。论文还测试了不同方法在存储空间和检索时间上的开销:相比于已有最佳方法,DrugHash节省30倍以上的存储空间;相比于用实值向量检索,DrugHash采用的二值向量能提升至少4.6倍检索速度。
匡亚明学院系统推进研究型教学范式改革,着力构建"本-研贯通式"科研育人新生态。通过打造动态双向匹配的本科生科研导师资源库,基于学生学术志趣与发展规划,在人工智能、生命健康等战略领域实现科研选题精准导航。该体系实施以来成效显著,学院本科生累计获批国家自然科学基金委优秀本科生项目4项,以第一作者在Angewandte Chemie International Edition等国际权威期刊发表创新成果,摘得"互联网+"大学生创新创业大赛全国总决赛金奖和国际基因工程机器大赛决赛金奖等标志性奖项,展现出卓越的学术竞争力。