陈华富、颜红梅教授团队青年教师黄伟在Information Fusion期刊发表大脑视觉信息解码研究成果电子科技大学成电新闻网

分享到微信 ×

打开微信“扫一扫”
即可将网页分享至朋友圈

陈华富、颜红梅教授团队青年教师黄伟在Information Fusion期刊发表大脑视觉信息解码研究成果

文：黄伟图：黄伟来源：生命学院原通信与信息工程学院时间：2024-07-20 5181

　　近日，生命科学与技术学院陈华富、颜红梅教授团队在人工智能权威期刊Information Fusion发表了大脑视觉信息解码研究成果。黄伟讲师为该论文第一作者，陈华富教授、颜红梅教授和程凯文副教授为共同通讯作者，电子科技大学为第一单位。

　　视觉和语言之间的联系一直是认知神经科学中一个引人入胜的研究领域。有证据表明视觉和语言大脑区域之间存在相互影响。在理解语言时，大脑会激活与视觉相关的区域，这意味着语言理解和视觉信息处理之间存在潜在的相互依赖性。这种合作可能有助于解释为什么我们在面对视觉图像或场景时使用丰富而生动的语言表达。视觉认知由粗到细的识别过程是我们感知世界并表达所见所感的关键。以欣赏一幅美景为例（如图1），最开始，我们所见到的仅是画作所呈现的一种风景整体类别，这种整体感知让我们迅速领悟到画面的大致信息。随着我们观察逐渐深入，我们逐渐发现画中的细节，比如落日、鸟儿、湖水，以及云彩。这个阶段呈现了多语义的表达，我们从整体感知逐渐转向对细节的深入理解。语言认知的表达过程也经历由整体到细节的层次化过程。一开始，我们可能会使用概括性的表达，比如简单地形容视觉场景为“风景”。这样的表达方式是对整体感知的一种概括性呈现，类似于视觉认知中的整体意义。随着我们对所见事物的深入观察和思考，语言表达逐渐变得更加具体和细致。我们可能会详细描述画中的具体元素，比如“落日余晖映照下的湖水”、“自由飞翔的小鸟”、“天空中绚丽多彩的云朵”，甚至形成更为完整的语言表达，如“落霞与孤鹜齐飞，秋水共长天一色”这样的诗句。语言认知中对细节逐渐加工的过程，类似于视觉认知中对细节的感知过程。视觉认知和语言认知是相互关联的，都经历着由整体到细节的识别和表达过程。这种逐步深入的方式让我们在理解和表达世界时，逐渐深入、更全面地认知事物的细节和复杂性。针对视觉感知和语言表达的多层次关系，我们提出了一种视觉语言解码模型（VLDM），能够同时执行三个层次的解码任务：主要类别、多标签和文本描述。

news.uestc.edu.png

图1.视觉语言解码过程概述

VLDM由两个编码器（Visual-Encoder和Multitask-Encoder）和三个解码器（Category-Decoder、Label-Decoder和Text-Decoder）组成。这些编码器和解码器在解码视觉信息的过程中发挥着不同的作用。图2说明了VLDM的整体结构。

6a2484e3aa32e6a24ea361e669d3c2f3_d63ea.p

图2.视觉语言解码模型

　　在多任务解码方法中，类别解码被确定为主要任务，因为它提供了有关大脑如何感知自然图像的基本信息。在这项研究中，受试者观看了包括12个不同类别（人、车辆、户外、动物、配件、运动、厨房、食物、家具、电子、电器和室内）的自然图像，fMRI 捕捉了这些图像在10个视觉皮层区域（V1、V2、V3、OFA、PPA、OPA、VWFA、FBA、FFA 和 EBA）的反应活动。这些视觉活动被Visual-Encoder和Multitask-Encoder转换为多任务特征。随后，将这些多任务特征的第一部分输入到Category-Decoder中，以获得自然图像的类别分布。我们采用分类准确性作为评估指标，定量分析和衡量将观看的自然图像正确分类为12个不同类别的准确性。图3展示了类别解码的相关结果。

ee447b3162b7723651ae798e53bbbd72_d63ea.p

图3.类别解码的结果

　　本研究涉及的自然图像共包含80个不同的标签（详见补充表4）。从COCO数据集衍生出的语义标签在图像识别领域被广泛用于描述图像中的内容和场景。每个标签代表图像中的特定语义信息，例如“人”、“汽车”、“狗”等。这些标签的定义和分布基于COCO数据集的标注信息，由专业标注者根据图像内容进行人工标注。值得注意的是，每个自然图像仅包含几个标签。图4展示了标签解码的相关结果。

be45d302f5521153efef5c45623fc4d1_d63ea.p

图4.标签解码的结果

　　图5展示了文本解码的结果，其中每个块的图像代表主体观看的自然图像，文本代表我们提出的解码模型生成的句子。例如，在图5A中，第一行第二张图片的解码句子是“一只猫坐在木椅上”，其中“猫”和“木椅”准确地描述了图像中的物体，而“坐着”准确地反映了图像中物体的动作，介词和冠词将这些物体和动作串成一个描述性的句子。在第一个示例中，解码的句子描述了在乡村轨道上行驶的火车，而目标句子描述了静止在轨道上的火车。虽然火车的动作不同，但两句话都准确地描绘了火车在轨道上的场景。在第三个例子中，解码的句子描述了一个男人在网球场上挥动球拍，而目标句子描述了一对打网球的夫妇。虽然解码后的文本省略了第二人称，但两句话都准确地反映了网球场上的活动。尽管解码的句子和目标句子不完全相同，但它们都准确地描述了视觉刺激图像。解码后的句子捕获了主题信息，即使它们在细节上有所不同，但总体而言，它们仍然提供了足够的信息来理解图像的主要内容。这表明，解码过程在提取图像的核心视觉元素方面是有效的，尽管在捕获复杂细节和特定动作方面还有改进的余地。

449c0ef676374ed628a3f8e1145d536a_d63ea.p

图5.文本解码的结果

　　上述研究成果中，开发的多任务解码模型对应于脑机接口有三个应用价值：（1）类别解码有助于通过大脑活动控制轮椅等辅助设备，提高残疾人的日常生活便利性；（2）标签解码为残疾人提供了更复杂、更高级的控制能力，如操作机械臂，促进更灵活的生活方式；（3）文本解码支持失语症患者恢复语言功能，实现自然交流和指令传递。

b26c5ae6c22659321c235f30ff5a1f4f_d63ea.p

　　黄伟，讲师。中国图象图形学会类脑视觉专委会委员。针对大脑神经解码难题，开展了基于功能磁共振成像的视觉感知解码理论与方法研究。近年来，在脑科学和人工智能领域Information Fusion, Neural Networks, International Journal of Neural Systems和Computer Methods and Programs in Biomedicine等期刊发表SCI论文20余篇，授权/受理国家发明专利10项。主持博士后面上项目1项，参与国防科技、国家自然科学基金和省部级项目3项。2021年6月-2023年5月，曾在华为工作两年，主要从事文本信息挖掘、图像视觉问答等大模型相关研究及落地，拥有丰富的实践经验，并获得了《算法创新优秀新人奖》、《基于模型的表单理解研究团队奖》、《业务服务优秀奖》等多项奖项。

作者 2. 程凯文.png

　　程凯文，电子科技大学生物医学工程博士，四川外国语大学语言智能学院副教授，嘉陵青年学者，硕士生导师。现为《心理科学》, Brain Sciences等期刊匿名外审专家，重庆神经科学学会理事，中国神经科学学会认知神经生物学分会会员、中国神经语言学研究会会员。主要从事认知神经科学、心理语言学和语言智能等方面的研究，已在Language and Cognition、Lingua、Information Fusion、Brain research bulletin、Frontiers in human neuroscience、Human brain mapping、Neural networks、Peerj、《心理科学进展》、《外国语文》等期刊发表论文30余篇；获四川省社会科学优秀成果奖三等奖1次；主持重庆市社科项目1项和第二轮重庆市一流学科外国语言文学重点项目1项，完成厅级和校级项目6项，参与国家社科基金和自科基金项目3项。

a19f5d10f32c7c50dd9c3c9ad470c51c_d63ea.p

　　颜红梅，教授，博导。中国生物医学工程学会测量分委会委员，四川省认知科学学会理事会理事。致力于认知心理学与信息处理的交叉研究，具体方向包括视觉认知与计算、视觉注意与眼动、视觉编码与解码等。主持完成6项国家自然科学基金项目，近年来，在脑科学和人工智能领域Information Fusion、Neural Networks、IEEE Transactions on Intelligent Transportation Systems和Neuroscience bulletin等期刊发表学术论文40余篇，申请中国发明专利10余项。

99990f0ad2f063579a817dc6116faa1f_d63ea.p

　　陈华富，教授，博导。国家杰出青年科学基金获得者，天府创新领军人才，四川省教书育人名师。致力于磁共振脑影像方向研究，并组建“脑成像与模式识别”研究团队，主要从事磁共振脑影像数据模式识别的人工智能与机器学习方法研究、神经与精神疾病影像机制研究，探测疾病的典型影像学特征，为临床诊断和评估提供影像学依据。主持科技部863、重点研发人工智能2030项目、国家自然基金重点、杰青和面上等科研项目。团队在Biological Psychiatry、PNAS、Science Advances、Nature Communications、Information Fusion、Molecular Psychiatry、Brain、PLoS Biology、Neurology、IEEE Trans MI/BME等期刊发表SCI论文300余篇。获教育部自然科学一等奖1项和教育部科技进步一等奖和二等奖各1项，获四川省科技进步自然科学类一等奖1项。