目的 获取场景图像中的文本信息对理解场景内容具有重要意义,而文本检测是对文本识别、理解的基础。目前,场景文本检测是最具挑战性的任务之一,正受到越来越多的研究关注。方法 本文提出了一种高效的任意形状文本检测器:非局部像素聚合网络,该方法使用特征金字塔增强模块和特征融合模块进行轻量级特征提取,保证了速度优势;同时引入非局部操作以增强骨干网络的提取特征的能力,使其检测的准确性得到提高。非局部操作是一种注意力机制,它能捕捉到文本像素之间的内在关系。此外,本文设计了一种特征向量融合模块,用于融合不同尺度的特征图,使尺度多变的场景文本实例的特征表达得到增强。结果 本方法在3个场景文本数据集上与其他方法进行了比较,在速度和准确度上均表现突出。在ICDAR2015数据集上,本方法比最优方法的F值提高了1.5%,检测速度达到了23.1FPS;在CTW1500数据集上,本方法比最优方法的F值提高了1.8%,检测速度达到了71.8FPS;在Total-Text数据集上,本方法比最优方法的F值提高了0.8%,检测速度达到了64.3FPS,远远超出其它方法。结论 本文所提出的方法兼顾了准确性和实时性,在准确度和速度方面均处于领先水平。