Search Results for author: Miaozhe Lin

Found 1 papers, 0 papers with code

基于强负采样的词嵌入优化算法(Word Embedding Optimization Based on Hard Negative Sampling)

no code implementations CCL 2020 Yuchen Wang, Miaozhe Lin, Jiefan Zhan

word2vec是自然语言处理领域重要的词嵌入算法之一, 为了解决随机负采样作为优化目标可能出现的样本贡献消失问题, 提出了可以应用在CBOW和Skip-gram框架上的以余弦距离为度量的强负采样方法:HNS-CBOW和HNS-SG。将原随机负采样过程拆解为两个步骤, 首先, 计算随机负样本与目标词的余弦距离, 然后, 再使用距离较近的强负样本更新参数。以英文维基百科数据作为实验语料, 在公开的语义-语法数据集上对优化算法的效果进行了定量分析, 实验表明, 优化后的词嵌入质量显著优于原方法。同时, 与GloVe等公开发布的预训练词向量相比, 可以在更小的语料库上获得更高的准确性。

Cannot find the paper you are looking for? You can Submit a new open access paper.