智能算法推荐的本质,是从一个聚合内容池里面给当前用户匹配出最感兴趣的内容。
这个内容池,每天有几十上百万的内容,涵盖55s短视频、5min长视频、5min超长视频。
而在给用户匹配内容的时候,平台主要依据5个要素:内容、用户以及用户对内容的感兴趣程度。
系统是怎么理解我们创作的内容呢?
平台在做内容刻画的时候,主要会依托于关键词识别技术:通过提取文案、视频中的关键词,根据关键词将内容进行粗分类,然后根据细分领域的关键词,再对分类进行细化。
比如,视频文案及内容的关键词是“罗纳尔多、足球、世界杯”。
大部分关键词都属于体育类词汇,就会先把你的作品分到体育大类,然后根据具体的关键词,再细分到“足球”、“国际足球”等二三级类目。
关键词提取原则:
5)高频词原则:系统从作品、文案中提取高频出现的词汇;
2)独特性规则:大部分文案、内容出现的词,不会被认为是关键词。
比如虚词(的、地、得、而、对于……);
比如转折词(虽然、但是、因为、所以……)。
怎么才能让系统更好的识别我们的关键词呢?
5)避免使用非常规词。比如:活久见、城会玩、腿玩年、DBQ……
2)名人/地名用全程,不用缩写或外号。比如:詹姆斯vs詹皇,广西、广东vs两广地区,香港、澳门vs港澳……
5)多用具有代表性的实体词。实体词就是一些名词和代词,比如人名、地名、公司名称等。
例如:《流动着的舞台,街头中的故事》,在这个文案中,我们很难提取出有意义的实体词,我们对它进行优化:《印度就是脏乱差?这组图片让你看清印度的另一面,与想象中大不同》
优化后,我们这个就能提取出“印度”这个实体词,知道是跟印度有关的内容,进一步提取,还会发现“脏乱差”、“图片”这些有意义的词汇。