Northwest Normal University Institutional Repository (NWNU_IR)
基于BiLSTMCRF模型的藏文分词方法 | |
王莉莉1; 王宏渊1; 白玛曲珍1; 杨鸿武1,2,3 | |
2020-08-15 | |
发表期刊 | 重庆邮电大学学报(自然科学版) |
ISSN | 1673-825X |
卷号 | 32期号:04页码:648-654 |
摘要 | 藏文分词是实现藏文语音合成和藏文语音识别的关键技术之一。提出一种基于双向长短时记忆网络加条件随机场(bidirectional long-short-term memory with conditional random field model, BiLSTM_CRF)模型的藏文分词方法。对手工分词的语料经过词向量训练后输入到双向长短时记忆网络(bidirectional long-short-term memory, BiLSTM)中,将前向长短时记忆网络(long-short-term memory, LSTM)和后向LSTM学习到的过去输入特征和未来输入特征相加,传入到线性层和softmax层进行非线性操作得到粗预测信息,再利用条件随机场(conditional random field, CRF)模型进行约束性修正,得到一个利用词向量和CRF模型优化的藏文分词模型。实验结果表明,基于BiLSTM_CRF模型的藏文分词方法可取得较好的分词效果,分词准确率可达94.33%,召回率为93.89%,F值为94.11%。 |
关键词 | 文本分词 长短时计忆网络 深度神经网络 词向量 民族语言 |
URL | 查看原文 |
收录类别 | 北大核心 ; CSCD |
语种 | 中文 |
资助项目 | 国家自然科学基金(11664036,61263036);甘肃省高等学校科技创新团队项目(2017C-03)~~ |
原始文献类型 | 学术期刊 |
中图分类号 | TP391.1;TP183;H214 |
文献类型 | 期刊论文 |
条目标识符 | https://ir.nwnu.edu.cn/handle/39RV6HYL/72093 |
专题 | 实体学院_物理与电子工程学院 实体学院_马克思主义学院 实体学院_教育技术学院 |
通讯作者 | 杨鸿武 |
作者单位 | 1.西北师范大学物理与电子工程学院; 2.甘肃省智能信息技术与应用工程研究中心; 3.互联网教育数据学习分析技术国家地方联合工程实验室 |
第一作者单位 | 物理与电子工程学院 |
通讯作者单位 | 物理与电子工程学院 |
第一作者的第一单位 | 物理与电子工程学院 |
推荐引用方式 GB/T 7714 | 王莉莉,王宏渊,白玛曲珍,等. 基于BiLSTMCRF模型的藏文分词方法[J]. 重庆邮电大学学报(自然科学版),2020,32(04):648-654. |
APA | 王莉莉,王宏渊,白玛曲珍,&杨鸿武.(2020).基于BiLSTMCRF模型的藏文分词方法.重庆邮电大学学报(自然科学版),32(04),648-654. |
MLA | 王莉莉,et al."基于BiLSTMCRF模型的藏文分词方法".重庆邮电大学学报(自然科学版) 32.04(2020):648-654. |
条目包含的文件 | 下载所有文件 | |||||
文件名称/大小 | 文献类型 | 版本类型 | 开放类型 | 使用许可 | ||
基于BiLSTMCRF模型的藏文分词方法(2372KB) | 期刊论文 | 出版稿 | 开放获取 | CC BY-NC-SA | 浏览 下载 |
个性服务 |
查看访问统计 |
谷歌学术 |
谷歌学术中相似的文章 |
[王莉莉]的文章 |
[王宏渊]的文章 |
[白玛曲珍]的文章 |
百度学术 |
百度学术中相似的文章 |
[王莉莉]的文章 |
[王宏渊]的文章 |
[白玛曲珍]的文章 |
必应学术 |
必应学术中相似的文章 |
[王莉莉]的文章 |
[王宏渊]的文章 |
[白玛曲珍]的文章 |
相关权益政策 |
暂无数据 |
收藏/分享 |
除非特别说明,本系统中所有内容都受版权保护,并保留所有权利。
修改评论