商品爬取策略

步骤1 确定爬取电商范围

  1. 现阶段重点爬取京东、天猫、苏宁和国美;具体电商平台及权重详见《商品品类&电商》

步骤2 确定内部商品品类

  1. 内部品类参考什么值得买,确定一二三级,详见《商品品类&电商》

步骤3 爬取商品

  1. 直接使用三级品类,在电商平台进行搜索查询,获取搜索结果页的商品数据,自动归类到对应的品类下方

  2. ???待需试验确定的问题

    (1)部分电商会识别出搜索关键词在不同品类中,如搜索“男装”会出现服饰品类、图书音像品类等,目前暂定分类属性默认第一项

    (2)电商搜索结果智能匹配程度高,搜索结果会存在相关程度不高的商品,但此类结果电商都会将展示权重调后,因此届时需要再确定每个品类在每个电商平台的爬取页码范围

步骤4 获取商品属性

  1. 电商搜索结果页会自动将对应品类的商品属性,以条件筛选的形式展示,采集商品数据时,需要顺带将这些商品属性项和属性值收录,并映射到对应的商品

步骤5 获取商品具体信息

确定商品爬取字段,详见《商品爬取字段表》

App对字段数据的处理展示

步骤6 识别不同平台同款商品

  1. 识别规则:

    (1)优先按品类筛选

    (2)品牌是否一致

    (3)商品描述(商品标题)的文本相似度

  2. ???待研究的问题

    (1)需要分词相关技术预研,涉及词语划分、词性权重、语义识别等相关技术;

    (2)需要电商行业词库,用于识别语义,已确定词语对应的意思,这方面词库需要采购,目前暂未发现有效的采购来源

步骤7 商品更新

  1. 待开发确定商品更新频率


目前项目执行计划(暂定):

  1. 同开发同事沟通后,开发同事会先在重点电商平台上,试抓取一些热门品类数据,确定技术方案,后期再全平台全品类适用;
  2. 由于每个平台每个品类都需要开发单独去指定规则,目前三级品类有688个,每个品类规则确定到第一次爬取,起码要消耗1天的时间;
  3. 在3.15上线前,只能优先处理热门平台和热门品类,后续逐步完善,时间问题(但这点目前老大们不理解,沟通存在障碍)。