Key Words:
实体边界特征;;注意力序列;;实体识别;;非物质文化
Abstract:
[目的]实体抽取过程中可能遇到实体边界属性模糊、语料数据稀疏、手工标注限制等问题。本文将传统技艺文化与命名实体标注相结合,提出一种融合边界特征和注意力序列结构的实体识别模型ER-BFAS,对文本语料进行技艺实体标签的识别预测。[方法]将实体边界属性特征融入到文本标签联合嵌入层,通过注意力机制生成特征向量。同时,利用双向LSTM捕捉技艺类实体标签关联信息,增强模型对不同标签的识别能力。最后通过CRF层预测技艺实体标签,选择条件概率最大的标签作为预测结果。[结果]与其他序列标注模型相比,ER-BFAS模型在传统技艺数据集的F1分数达到85%,不同标签精确率超过90%。在DGRE数据集上精确率达到75%,进一步验证模型的泛化能力。[局限]实验数据类型有限、未处理复杂实体关系。[结论]ER-BFAS模型在处理传统技艺和通用数据集方面,能有效识别出实体边界信息,显著提高非遗传统技艺领域的实体识别能力。