Реверсинженирим Яндекс Дзен

Реверсинженирим Яндекс Дзен

Всем привет. Как разработчик рекомендательной платформы relap.io - не мог пройти мимо Дзена. Мне эта платформа интересна с технической стороны и я попытался отреверсинженирить ее, основываясь на своем опыте и небольшом тестовом канале.

Итак, вы завели канал. Чего ожидать от этой платформы и как не наступить на многочисленные грабли. Показать всё что скрыто, шокирующая правда об алгоритмах Яндекс Дзен :)

Сайт или канал?
Яндекс хочет денег (стратегически). Выгоднее строить медиа платформу - замкнутую на себя и свою систему монетизации (Директ). Тактически необходимо дать трафик и внешним сайтам (монетизируемым не через яндекс) на первом этапе. Поэтому пока есть эта смешная опция - подключить сайт. Но канал выгоднее яндексу в перспективе.
Итого - Канал.

О чем писать
О том, что интересно пользователям. Лол. Конечно же нет. Зен - это просто алгоритм. Робот приоритизирует контент, который нравится юзерам. Это не одно и то же. Инструмент выражения "нравится" - это лайк. Упал самолет. Это интересный контент. Но ему не поставят лайк. Смотрите какой красивый закат на Бали - лайк. Смотрите - трусики Волочковой - или пан или пропал. Аудитория яндекса - взрослая> 30 лет, много женщин. Дальше думайте сами -> половина не вдупляет что лайк - это хочу больше такого же контента - для них лайк = лайку в соцсетях => лайки будут ставить контенту а не редактору. Я думаю сталингулаг, со своим нытьем не был бы так успешен в дзен, но кто знает, это был бы интересный эксперимент.
Итого - позитивный контент

Пост
Пост смотрит модератор. Это видно по ip адресам и задержке. У него есть кнопки - бан, удалить, супердизлайк.
Он может пессимизировать канал - за неуникальный контент, кликбейт и тп. Кнопку суперлайк - я бы не давал. Чревато злоупотреблениями. Для того чтобы понять насколько интересен пост - он показывается небольшой выборке. Размер выборки зависит от рейтинга канала. Рейтинг формируется как совокупность лайков/дизлайков канала нормализованных по количеству подписчиков. При нулевом рейтинге пост будет отгружен какому то дефолтному размеру, например тысяче. Думаю раскрученный канал может отгрузиться на десять тысяч и в первой иттерации. Затем пересчитываются показатели поста и размер следующей выборки.

Холодный старт
Основная проблема рекомендательных алгоритмов - холодный старт. Кому показывать контент, любителям котиков или трусов? Возможно, tf/idf -> ключевые слова -> тематика канала животные. Алгоритмы не могут эффективно работать с большими массивами данных, данные укрупняют. Посты - объединены в каналы, каналы - в "интересы/темы". Те каждый юзер представлен как совокупность векторов:
- интересы
- каналы
- посты (под вопросом)
с различными весами. Если вы пишите про всё подряд, то про трусы, то про котов - ваш пост будет показан более разношерстной аудитории, вы получите меньшее пересечение по интересам, меньшее количество лайков, меньший рейтинг канала, меньший размер выборки, меньше трафика - дальше продолжать?

Если понять о чем ваш пост/канал - не удается - отгружается ужасному рандому. Я вижу это по косвенным факторам, первые посты набирают на порядки меньше лайков, так как уходят не ЦА, а некой куче. С улучшением тагетирования канала по интересам - улучшается и качество целевой аудитории. И ctr и лайки.
Итого - пишите для одной и той же аудитории, на одну и ту же тему

Затухание
Трафик сначала растет иттерациями, затем начинает затухать. Это отвратительно, но есть закон жизни. Если бы тараканы не умирали, они заполонили бы всю планету. Как то я иносказательно. Если бы посты не "умирали" - у новых постов не было бы места в ленте пользователя, поэтому трафик с каждого поста не вечен, но отгружается по остаточному принципу. Если нет более лучших новых постов по этой теме - отгрузят ваш пост. Обычно период активного роста - несколько дней. Чем удачней пост - тем дольше он жив. Затем старение и смерть.
Итого - писать в канал придется вечно
далее http://recoilmeblog.tggram.com/post/104

Relap.Io
Relap
Relap — helps publishers increase audiences engagement and delivers higher revenues with native advertisement