为什么常识

淘宝、阿里巴巴等电商平台的站内搜索中其词库估计都是如何建设的?

生活词典 changshi.cidiancn.com

阅读: 310

淘宝、阿里巴巴等电商平台的站内搜索中其词库估计都是如何建设的?1、类似淘宝、阿里巴巴(包括中英文)、亚马逊、ebay等电子商务平台,其站内搜索中,词库建设中估计都有哪些要点,估计都是大致怎么样的方案?会有同义词、上位词、下位词、集中词、分散词、隐藏词等等概念么?2、另外这些电子商务平台的词库基本上都是名词为主的词库,这个和通用搜索引擎的词库存在比较大的差别,针对这一情况,需要有些与通过搜索引擎词库怎样不同的设计?4 个答案

答案 1:

因为不在业务前线,我只能说说通用的词库大致怎么来的。针对不同的类别,用规则定向去某些特定网页或某种特定模式挖掘,从文本中抽取,并加上统计信息和规则过滤。这里的类别指的是产品名称 电影名称这样的。抽取的结果和中文基本词库合并,就是词典的base版本新词挖掘是另一件事,用户查询日志和网页中的词频等都是很重要的信息,最后是用机器学习的分类来做的,crf用于新词发现也不错,但真正要结果好用,过滤要花不少工夫。-的新词就基于crf同义上下位都有做。 集中分散?你是说统称和具体名称么,这个也有。 隐藏词因为电商检索很在乎召回率,是重点做过的。

答案 2:

感谢邀请,但我不适合回答这个问题,因为我没去过,所以不了解。词库建设是个持续过程,需要有新词和未登陆词发现解决方案。记得在z-i-u上看到有阿里的人说他们第一个把CRF用于分词商业化了。一般来说,新词和未登陆词发现都采用统计方案,CRF是其中很好的工具。

答案 3:

概念性的东西我看你也了解了,最重要的是通过用户行为(热门搜索)补充词库。

答案 4:

淘宝、亚马逊这样的电子商务网站,他们的搜索应该更加侧重于商品名,词库的建设应该主要着重点在商品名词表的建设当中吧,我觉得对于电子商务网站来说,数据都是格式化的或者就直接存在数据库里面,想要获取他们的商品名等各种信息还是比较容易的。无需用到CRF来做分词或新词发现吧?

分享常识给亲友.

下一篇:在国外(美国),外带中餐的盒子都是那种梯形的? 下一篇 【方向键 ( → )下一篇】

上一篇:求证:中国公民在7月1号之后去朝鲜免签 上一篇 【方向键 ( ← )上一篇】