摘要:大规模文本数据具有数据量庞大的特点,且同一词汇在不同语境下可能具有完全不同的含义。仅依赖固定规则或模型,难以适应动态的语义变化,这会导致信息丢失和语义不完整。在这种情况下,无法捕捉到深层次的语义信息和语境关系,进而影响语义匹配的准确性。为解决这一问题,本文提出了一种基于改进型双向编码器表征量(bidirectional encoder representations from transformers,BERT)预训练模型的大规模文本语义匹配方法。该改进的BERT预训练模型通过文本词向量的位置编码来增强文本的语境信息特征,从而有效捕捉文本的语境信息。此外,采用注意力机制动态计算特征融合权重,并通过加权融合方法生成文本的融合语义特征。通过文本特征信息提取、多维知识编码、融合语义标签生成以及语义匹配关系预测4个步骤,评估待匹配文本之间的语义一致性。本文设定一致性阈值为0.8,即当预测值超过0.8时,认为待匹配文本具有较高的语义一致性,从而实现准确的文本语义匹配。实验结果表明,基于大规模文本样本数据得到的平均倒数排名(mean reciprocal rank,MRR)高于0.7,且与对比方法相比,匹配结果更加准确。