二手属性抽取算法效果Demo(个护美妆):闲鱼商品特点及解决方案

二手属性抽取在NLP领域至关重要,却也充满挑战,不同算法各有优劣,怎样选择最适用的算法呢?让我们一探究竟。

二手属性抽取本质

二手属性抽取是NLP领域信息抽取问题,常拆解为命名实体识别和文本分类任务。在当下NLP环境,Bert家族等算法称霸各大榜单,信息抽取任务也受其影响。不过,没有算法能在所有场景全能,需根据领域和场景选合适算法。

任务拆解方法

BERT家族信息抽取方案_闲鱼涨粉会影响权重吗_闲鱼二手属性抽取算法

将不同二手属性识别需求拆解为文本多分类、多标签分类和NER任务。先利用AliNLP的电商NER模型解析输入文本,再拆解。对NER任务的二手属性,定位相关词性或实体关键词做BIO标注;对分类任务的二手属性,在电商NER分词结果基础上打标,提高标注效率。

训练算法之Albert

Albert源码与Bert相似,但网络结构有重要区别。考虑线上部署实时性,方案选了最小的Albert - Tiny,其中文推断速度比bert - base快约10倍,且精度基本保留。在二手属性识别上,它比Albert - Tiny准确率相对提升约1%到1.5%,适用于离线T + 1场景。

训练算法之CRF应用

对于NER任务,可尝试在网络最后接一层CRF或不接。接CRF能在一定程度上提升NER任务的性能闲鱼涨粉会影响权重吗,但具体效果还需结合实际数据和场景判断。不同的选择会对最终的属性识别结果产生不同影响。

训练算法之StructBert

闲鱼二手属性抽取算法_BERT家族信息抽取方案_闲鱼涨粉会影响权重吗

StructBert是阿里自研算法,精度高,在GLUE榜单排第3名。其论文相比Bert在预训练任务目标上有优化。方案选它是因集团有电商领域专属预训练模型。在离线T + 1场景,对实时性要求不高闲鱼涨粉会影响权重吗,选了StrutBert - Base,在固定句式和关键词的二手属性上准确率更高。

方案评估与应用

方案为每个类目二手属性定好评测标准,抽样数据人工评估。识别结果在准确率、精召率方面达98%以上,误差值远小于上线限制,已上线应用于闲鱼主要类目商品。

大家觉得在不同的电商场景下,这些算法还可能会有哪些优化空间呢?欢迎评论分享,也别忘了点赞和分享本文!