Как рассчитывается рейтинг imdb
Разность менталитетов: Кинопоиск против IMDB
Когда нам что-то нужно найти в интернете, мы заходим на Яндекс или Гугл. Эстеты могут предпочесть
bing или Спутник. В-общем, есть из чего выбрать. Но когда мы ищем кино, то как «шампунь номер один» в голове сразу всплывает Кинопоиск.
1. Сайты и рейтинги
Дейсвительно, на Кинопоиске самая большая в русскоязычном Интернете база данных о фильмах, правда о конкретном их количестве администрация дает уклончивый ответ про несколько сотен тысяч.
А IMDB — это глобальный «кинопоиск». В его базах более 3,5 миллионов фильмов.
Посетители обоих сайтов могут оценивать фильмы по 10-балльной шкале. На основе этих голосов по секретным методикам вычисляются рейтинги фильмов. У Кинопоиска даже два рейтинга — «Лучшие 250 фильмов» (Top-250) и обычный. Top-250 выглядит более «сглаженно», поэтому будем рассматривать обычный рейтинг, а из топа возьмем только список фильмов.
Рейтинг Кинопоиска округляется до тысячных, рейтинг IMDB — до десятых, по этому по IMDB довольно много фильмов с одинаковым рейтингом.
Но для начала сравним аудиторию сайтов. Кинопоиск сайт русскоязычный, и посещают его в-основном русскоговорящие:
Германию сложно назвать «русским миром», как, собственно и Казахстан, но только Россия-Украина-Белоруссия дают уже более 3/4 посетителей. Статистика отсюда
IMDB на английском языке, поэтому доступен более широкому кругу пользователей:
Индия со своим Болливудом — особый случай, но США-Великобритания-Канада это более 1/3 аудитории. Статистика отсюда
Таким образом, Кинопоиск можно считать выразителем мнения подавляющего большинства русскоговорящего населения планеты. Про IMDB и американцев так утверждать нельзя, но тем не менее, они оказывают существенное влияние на рейтинги фильмов.
Проанализировав рейтинги фильмов, можем увидеть, что больше нравится нам, а что «им». Данные брались с сайтов 20-27 ноября. Даже за эту неделю рейтинги изменились, но не настолько, чтобы сильно повлиять на результат. Все результаты и данные для расчета в этом файле, можете скачать и тоже проанализировать.
2. В чем мы совпадаем.
В обоих рейтингах Лучшим фильмом всех времен и народов признан «Побег из Шоушенка», американский фильм 1994 года. Ниже представлены 10 фильмов с вершины рейтингов, а также «суммарный рейтинг» (рассчитывался, как произведение рейтингов Кинопоиска обычного и IMDB).
Вполне ожидаемо в наш рейтинг попали наши фильмы. Кстати, на IMDB они тоже представлены, но я их исключил из расчета, так как маловероятно, что за них голосовал кто-то кроме русских. К тому-же их рейтинги довольно близки с Кинопоиском. Возможно Тарковского и «Москва слезам не верит» и смотрят американцы с индусами, но точных данных у меня нет. Если у вас есть информация о том, смотрят ли их за рубежом — пишите.
Кстати, обратите внимание, у нас на 7 месте мультфильм. В IMDB первый мультик только на 29 месте («Унесенные призраками» Миядзаки).
В рейтинг вошли фильмы из списка «250 лучших фильмов» по версии обоих сайтов. Исключение составили фильмы, представленные только на одном сайте, фильмы рейтинг которых на Кинопоиске «серый» (то есть их посмотрело очень мало людей) и советские и российские фильмы. Всего в списке 342 кинокартины, с 1921 по 2017 год.
3. В чем мы различаемся.
Сперва для каждого фильма рейтинг Кинопоиска был разделен на рейтинг IMDB, затем вычислено среднее арифметическое из получившихся значений. Затем для каждого фильма вычислена разница между отношением рейтингов и средним значением. Чем она больше, тем рейтинг Кинопоиска больше рейтинга IMDB, тем больше фильм нравится нам, и наоборот.
Что нравится «нам» больше, чем «им»:
Что «им» нравится больше, чем «нам»:
Вообще заметна тенденция: нам больше нравятся французские и итальянские фильмы, популярные в советские времена, американское кино 90-х, которое мы впервые увидели в видеосалонах, душещипательные фильмы про героя-одиночку, мультики и пираты.
Остальному миру больше нравятся фильмы основанные на реальных событиях, про гангстеров, про войну, «фильмы народов мира» и Звездные войны.
Выводы пусть делают психологи и кинокритики. Немного удивился, когда любимые с детства фильмы оказались не очень популярны в мире. И наоборот обидно, когда соотечественники недооценивают хорошее кино. В любом случае эти фильмы стали частью нашей культуры, а насколько доверять анонимным интернет-опросам каждый решает сам.
Разумеется, изменив методику расчета мы получим другие результаты. Если захотите проделать такое, скачивайте файл и экспериментируйте. Только пришлите пожалуйста ссылку на свои результаты, с интересом почитаю.
Рейтинг сериалов от IMDb и Кинопоиска — поясняем как он рассчитывается
Всем привет. На связи Дима и Оля.
В этой статье мы хотим пояснить принципы расчета рейтинга IMDB и Кинопоиска. А также разберемся с вопросом: почему рейтинги этих двух сервисов иногда очень сильно отличаются…
Что такое IMDb?
Это аббревиатура от Internet Movie Database, что в переводе с английского языка означает Интернет-база фильмов.
Сайт IMDb.com входит в топ-50 самых популярных сайтов в Америке (и не только в Америке) по данным Alexa. Сайт принадлежит компании Amazon.
База данных огромная: тут не только фильмы и сериалы (TV Shows), но и актёры, сценаристы, режиссёры — о каждом можно найти хоть какую-то информацию. Ну и конечно же, на сайте есть информация о различных наградах, фестивалях, событиях в области кино.
Добавляют эту информацию не только сотрудники IMDb, но и пользователи, которые прошли верификацию. То есть это своего рода википедия, целиком и полностью посвященная кино.
Рейтинг IMDb — как рассчитывается
Пользователи сайта выставляют оценки просмотренным фильмам по 10-балльной шкале, где:
На основе этих оценок и рассчитывается единый рейтинг.
Казалось бы, всё просто: нужно всего лишь вычислить среднее арифметическое значение (то есть сумму всех голосов поделить на количество голосов), но на самом деле вычисляется средневзвешенный рейтинг.
Средневзвешенное значение рейтинга IMDb не изменяется при получении каждого нового голоса, а обновляется несколько раз в день
формула средневзвешенного рейтинга…
Рейтинг сериалов не является средневзвешенным рейтингом отдельных эпизодов. Вместо этого пользователи голосуют отдельно за рейтинг сериала в целом и отдельно за каждый эпизод на странице серии.
Таким образом можно вычислить лучшие серии конкретного сериала. Особенно удобно это с антологиями (например, «Сумеречная зона», «Чёрное зеркало»). Можно посмотреть лучшие серии, если нет времени на весь сериал.
3 лучших эпизода Игры Престолов имеют рейтинг 9.9.
Накрутка рейтинга возможна? ДА! Причём рейтинг могут накрутить как в большую сторону так и меньшую.
Широко известен случай, когда индийский фильм «Вне закона» просто утопили в единицах. Бангладешской группе активистов не понравилось то, как показана их страна в нём и всё… Рейтинг фильма упал до 2.0 из 10.
Но администрация с этим борется…
Братья по оружию — лучший сериал по версии IMDB. Рейтинг 9.4
Рейтинг Кинопоиска — как рассчитывается
Фильмы и сериалы на КиноПоиске также оценивают пользователи. Не абы какие, а проверенные (зарегистрированные на сайте kinopoisk.ru и не замеченные в накрутке).
Оценка также происходит по 10-балльной шкале, где 1 — это ужас-ужас, а 10 — шедевр!
Чтобы избежать накруток, Кинопоиск при формировании топов использует только регулярно голосующих пользователей.
Текущие топ-3 фильма всего рейтинга! Согласны?
Сериал «Друзья» — лучший по оценкам в Кинопоиске. Оценка 9.3
Почему встречается большое расхождение рейтинга Кинопоиска и IMDB?
Из наших личных наблюдений: чаще на IMDB оценка чуть выше, чем на Кинопоиске. Люди в мире добрее что-ли? Или система ценностей в России и мире разная? Но факт остается фактом…
На оценку Кинопоиска может влиять качество дубляжа фильма. Возможно, в оригинале фильм смотрится в 5 раз лучше, чем после перевода…
Бывают и такие ситуации, когда фильм на Кинопоиске оценивается гораздо лучше… Яркий пример: «Гром в раю» с Халком Хоганом. На Кинопоиске 7.2, а на IMDB — 5.5. В каждом конкретном случае нужно смотреть по ситуации, но здесь сказываются, скорей всего, ностальгические оценки, смотревших кино в 90-х и любовь к Халку в России.
Или вот ещё интересный пример, в котором оценка IMDB наоборот заметно выше. «Война Чарли Уилсона» (2007): IMDB — 7.0, а Кинопоиск — 5.3. Всё просто — в фильме не с очень хорошей стороны показан СССР.
Пример приличной разницы в рейтинге…
Как относиться к рейтингу Кинопоиска и IMDB?
На наш взгляд, рейтинг четко отсеивает фильмы и сериалы, которые стоит смотреть, а какие не обязательно. Например, мы принципиально не смотрим фильмы, если рейтинг заметно ниже 7! Зачем тратить время? Нет, бывают исключения и среди фильмов с рейтингом 5-6 попадаются те, которые нам нравятся. Но это очень редко…
Если рейтинг выше 8, это значит, что фильм/сериал, как минимум, смотрибельный. А, возможно, и хит. Смотреть можно без опаски.
Также мы делаем поправки на тип контента:
Из отзыва к фильму! Вот логика человека. Есть танец — минус балл)
А вы смотрите оценку сериала в Кинопоиске и IMDB? Придаете ей значение?
Исследование датасета с IMDB
Проблематика
Но дурацких фильмов пруд пруди и стоит ли им вообще уделять хоть какое-то внимание? А вот рейтинг этого фильма оказался аномально высоким. И это очень удивило, ведь как такой откровенный кинематографический «шлак» набирает рейтинг выше среднего(по всем фильмам).
И вот я, полон скептицизма и недоверия к Яндексу системе рейтингования, вооружился инструментами для анализа и визуализации данных на основе python стека (sklearn, pandas, matplotlib, numpy) и решил разобраться почему у подобных фильмов могут появляться приличные рейтинги. Под катом вы найдёте интересные и неочевидные выводы о современном (и не очень) кинематографе, а также много иллюстраций к ним.
Данные в первую очередь
Но так как мне изначально был интересен именно рейтинг Кинопоиска, поиск нужного датасета продолжился. АПИ Кинопоиска оказался закрыт, а писать парсер html страничек сервиса было лень не было времени из-за завала на учебе. Поэтому я решился и написал в службу поддержки Кинопоиска с просьбой предоставить датасет для исследования исключительно в академических целях. К большому удивлению мне даже ответили, но ответили негативно. В итоге найти ничего другого не удалось. Датасет с Кинопоиска я обязательно соберу, но не ранее, чем после сессии. А сейчас для анализа пришлось взять тот датасет IMDB.
Из чего состоит статья
Исследование найденного датасета разделилось на две объёмные части:
Начнём
Вторую часть своего исследования я начал с того, что взял алгоритм линейной регрессии с lasso регуляризацией, обученный в первой части и построил диаграмму весовых коэффициентов признаков. Давайте взглянем на неё:
Столбцы «Режиссер», «[123] Актёр» соответствуют количеству лайков на Facebook у соответствующих личностей. «Формат» — это соотношение сторон картинки. «Лица» — это интересный вещественный признак, отражающий количество лиц на постере фильма. Значение остальных признаков очевидно. На данной диаграмме можно отметить несколько интересных моментов:
Теперь давайте взглянем на, пожалуй, главный признак киноленты — «Жанр».
На первой диаграмме отображена первая топ десятка жанров, на второй жанры с 11 по 20 место по среднему рейтингу.
Оказывается наибольший рейтинг набирают документальные, биографические и исторические фильмы. В свою очередь с большим отрывом наименьший рейтинг набирают фильмы из жанра ужасов.
Страна производства
Достаточно интересный результат можно наблюдать на диаграмме, отражающей средний рейтинг фильма из различных стран. Давайте рассмотрим топ шестерку стран по среднему рейтингу:
Как видим наиболее рейтинговые фильмы (в среднем) снимают в Великобритании, после которой идёт Франция, а вот Австралия на третьем месте стала весьма интересной неожиданностью. Лично мне трудно было сходу вспомнить хоть какой-то высокорейтинговый фильм из Австралии. Погуглив, удалось выяснить, что недавно вышедший фильм «Безумный Макс: Дорога ярости». А вот то, что американцы, заняли место вне топ тройки, весьма удивляет.
А теперь давайте взглянем на финансовую составляющую — на затраты каждой из стран на своё кинопроизводство:
Тут всё вполне ожидаемо, США лидирует с огромным отрывом, правда это не состыкуется с предыдущей диаграммой. Получается, что американцы нерационально используют свои ресурсы, раз тратят больше, но по качеству проигрывают. Хотя никто не отрицает, что они могут брать не качеством, а количеством.
Время
Теперь давайте рассмотрим как разные признаки фильмов зависят от времени. На данном графике отображается средний рейтинг фильмов в какой-то момент времени:
Можем увидеть, что средний рейтинг фильмов растёт обратно пропорционально году выпуска фильма.
В свою очередь этот факт не состыковывается с содержанием следующего графика:
На данном графике отображена динамика изменения среднего бюджета фильма. Из последних двух графиков можно сделать вывод, что с годами мы тратим на фильмы больше, а получаем их по качеству ниже.
Также весьма интересную картину дала зависимость средней длительность фильма от времени:
Можно видеть, что самые длительные фильмы снимали в 70е годы. Это очень трудно поддаётся объяснению и можно быть уверенным, что никто точного ответа на это не знает. Можно лишь предположить, что в 70е годы видео- и аудиоаппаратура получила серьёзное развитие, в то же время у режиссеров и сценаристов было море идей и поэтому им было трудно остановить поток мыслей. А в наше время уже снято настолько много фильмов, что уже трудно придумать что-то новое и поэтому фильмы делают короче.
Рейтинг IMDb Top 250 — как он составляется?
В течение полугода мы писали обзоры лучших фильмов в истории по версии рейтинга авторитетного киносайта IMDb. 250 картин мы рассмотрели в десяти частях:
По ходу публикации статей у читателей возникало много вопросов. Часть из них мы решили рассмотреть в отдельном посте, чтобы, с одной стороны, определить, как составляется рейтинг лучших фильмов IMDb, а с другой стороны, чтобы развеять несколько мифов вокруг этого списка. Поверьте, это очень интересная информация — на ее базе можно понять, как смотрят кино зрители разных стран.
Итак, как составляется рейтинг IMDb? Когда вы заходите на страницу фильма на сайте IMDb, вы можете проголосовать за него по десятибалльной шкале.
При этом, как видите, необходимо быть залогиненным (через facebook, Google+, собственно, IMDb или Amazon). Почему Amazon? Потому что Amazon некоторое время назад купил этот сайт и продает с чего помощью фильмы на DVD и других носителях.
Логин позволяет отсечь многократное голосование одного и того же человека (полагаем, помимо этого используются и другие опции защиты от накруток). Далее вычисляется средний рейтинг. Но он не вычисляется как среднее арифметическое — это было бы слишком просто. Вот формула, по которой вычисляется рейтинг для фильмов на IMDb:
weighted rating (взвешенный рейтинг) (WR) = (v ÷ (v+m)) × R + (m ÷ (v+m)) × C
R = среднее для фильма = (Rating) (рейтинг)
v = количество голосов за фильм = (votes) (голоса)
m = минимальное количество голосов, требуемое для участия в рейтинге Top 250 (на данный момент 25 000)
C = средний голос по всему отчету (на данный момент 7.0)
Для Top 250 учитываются только голоса от регулярных голосующих.
Эту непростую формулу придумали не создатели сайта, а математическое сообщество. Жил в 18 веке математик Томас Байес, который придумал множество теорем и оценок. Его теории были развиты последователям, а потому эта формула хоть и не принадлежит самому Байесу, носит название байесовской оценки. Используется такой расчет для того, чтобы в топ попадали фильмы по-настоящему известные, резонансные. Если бы использовалось среднее арифметическое, то в перечень лучших фильмов могла бы попасть какая-то безвестная картина сомнительного качества — за нее бы проголосовало пять человек, друзей режиссера, поставили бы высший балл, и вуаля. Разумеется, такие перегибы никому не интересны.
Голоса регулярно голосующих людей учитываются для того, чтобы на рейтинг влияли те, кто по-настоящему интересуется кино. Мы все знаем тип комментаторов в интернете, которые проходят мимо и бросают какую-то немногословную оценку в стиле «да это все говно» или «кто такую фигню смотрит вообще». Эти люди имеют право на свое мнение, но не хочется опираться на него при выборе хорошего фильма для просмотра.
Перейдем к стереотипам вокруг рейтинга — ведь это самое интересное. И начнем с главного:
1) в рейтинг IMDb входят только американские фильмы
Это не так. Доступ к голосованию имеют все интернет-пользователи мира. Сайт открыт как для американцев, так и для британцев, французов, немцев, китайцев, украинцев, австралийцев, итальянцев, русских — для всех стран, языков и технологических платформ. Тот, кто говорит, что в рейтинге только американские фильмы, просто не смотрел его. Мы не поленились и подсчитали, сколько фильмов от каких стран представлено в топе IMDb:
Даже в первой десятке не все фильмы американские — «Хороший, плохой и злой» совместного производства Италии, Испании и ФРГ. Да и «Властелин колец» значится как совместное производство Новой Зеландии и США, ведь съемки проходили в Новой Зеландии (среди прочего из-за особенностей налогообложения). Тем не менее, его мы учли как фильм американский — не будем бюрократами, стараемся смотреть в суть того, чье производство. В целом, мы оценивали не формальное место производства или особенности бухгалтерского учета, а то, чей это реально фильм — проще говоря, какая страна владывала деньги. Если стран было несколько, мы выбирали ту, вклад который был наиболее значимым. Этот подход не обладает математической строгостью, но для понимания общей картины он подходит.
Что мы видим? Безусловное лидерство американского кинопроизводства, однако и значительное количество фильмов из других стран, самых разных. Вы имеете представление о кинематографе Ирана? А фильм этой страны присутствует в рейтинге. После США наиболее заметно представлены Япония (в основном, благодаря Миядзаки и Куросаве), Великобритания, Франция, Италия и Германия (европейское кино всем известных больших режиссеров). Присутствуют Азия, Европа, Южная Америка, Северная (понятно, это все те же США) и Австралия. Нет только Африки.
Разумеется, американские картины в рейтинге доминируют, нет смысла это отрицать. Впрочем, нет смысла отрицать и другие очевидные факты: США снимают больше всех фильмов, вкладывают в киноиндустрию больше всех денег, имеют самый широкий прокат, а также, будем честны перед собой, снимают наибольшее количество хороших фильмов, кто бы как к голливудской машине ни относился. Но при этом, 71 фильм в рейтинге — из других стран. Так что говорить о том, что рейтинг чисто американский, не совсем корректно.
Если вы обратили внимание, есть также и два фильма производства СССР. Кстати, если посмотреть рейтинг Кинопоиска, то многие лидирующие позиции абсолютно схожи с IMDb. Основная разница между двумя рейтингами — перевес советского кино в списке Кинопоиска примерно на том же уровне, на котором американское кино перевешивает в выборке IMDb. Что легко объясняется работой kinopoisk.ru на русскоязычный сегмент аудитории и IMDb на рынок глобальный.
2) рейтинг IMDB составляют кинокритики и эксперты по непонятным правилам
Если вы внимательно прочитали выше о принципах составления рейтинга и подсчетах средних баллов, то вы уже понимаете, что это не так. Критикам дают выразить свое мнение на фестивалях или на отдельных нишевых сайтах. На IMDb голосует зритель. И подход у него может быть как эстетским и близким к профессиональному, так и абсолютно обывательский. Голос народа, как он есть.
3) в этом рейтинге засилье попсы, нормального кино не увидишь, потому что голосует публика без вкуса
Однако при этом, это не помойка. В первую очередь из-за того, что учитываются голоса постоянных участников, то есть тех, кто если не разбирается глубоко, то, по крайней мере, смотрит много фильмов и достаточно часто голосует. Нет смысла требовать понимания Тарковского от людей, которые смотрят 2-3 фильма в год. Они и отсекаются формулой подсчета. Это не элитарный сайт для избранных, но и «Любовь в большом городе» тут не пройдет.
Это не отменяет присутствие больших хитов проката. Но ведь и коммерческий успех картины вовсе не означает, что она плоха. С нашей точки зрения, рейтинг тем и хорош, что совмещает в себе шедевры Бергмана и комедии вроде «В джазе только девушки», фантастический мир «Звездных войн» и «Властелина колец» и страшную историю Холокоста «Списка Шиндлера».
4) в рейтинге одно старье/в рейтинге сплошь последние кассовые премьеры
Оба утверждения в корне неверны. Появляются они обычно от тех людей, которые ленятся прокрутить страницу со списком фильмов вниз. В рейтинге представлены как черно-белая классика 30-40-х годов, так и последние хиты. Согласимся, что в сторону отдельных последних премьер может быть перекос — взять, хотя бы, попадание в рейтинг «Мстителей». Мы все любим Дауни-младшего и компанию, но вряд ли ставим этот, пусть и хороший, фильм в один ряд с «Крестным отцом», «Побегом из Шоушенка» и «Молчанием ягнят». Однако, все то, что не выдерживает тест времени, вымывается из списка лучших фильмов. Подождем 2-3 года (хотя бы), и посмотрим, так ли сильны еще эмоции от просмотра ленты о супергероях комиксов.
50-е, 60-е, 70-, 80-е, 90-е, новая и новейшая история кино — все декады представлены более-менее равномерно. По той простой причине, что в каждом из десятилетий делали хорошее кино (да, обычно принято говорить, что «вот раньше, не то что сейчас», но нет — и раньше, и потом, и сейчас, и всегда делались отличные картины, и именно их и позволяет отобрать этот список).
5) легко устроить флэшмоб и сделать накрутку рейтинга
Устроить, безусловно, можно, и такие попытки были (вспомнить, хотя бы, ажиотаж вокруг среднего балла «Темного рыцаря», который на некоторое время стал безусловным номером один). Только это вовсе не легко. Технологически рейтинг защищен, тут явно нужны специалисты высокого класса для взлома. А по-настоящему собрать несколько десятков тысяч людей для необходимого голосования — это, опять же, не является чем-то нереальным, однако очень непросто. Кроме того, даже если они соберутся и проголосуют все в течение дня (или недели), то, скорее всего, такая активная ситуация будет рассмотрена как аномалия (если только это не премьерная неделя), и будет отклонена расчетным алгоритмом. Так что все мечты на продвижение «Зеленого слоника» в топ-250 IMDb пока что кажутся не слишком реальными.
Что можно сказать в заключение? Две вещи.
Первое. Часто говорят, «все рейтинги субъективны». Сложно спорить с такой всеобъемлющей фразой (в рейтинге неоспоримости она находится где-то между «мы все умрем» и «на вкус и цвет товарищей нет»). Тем не менее, рейтинги, составленные на основе числового подсчета большой выборки, пусть и субъективных мнений, гораздо ближе к реальности. Что и подтверждает результат — вы ведь не нашли в списке «Рокки 4» и «50 оттенков серого», не так ли?
И второе. Подобные рейтинги существуют, чтобы помогать зрителям находить интересное кино по их вкусу, а не для того, чтобы забрызгать слюной монитор, в попытке доказать свою правоту. Не нужно относится к IMDB Top 250 как к попытке унизить какого-то режиссера, или возвысить какой-то фильм, заслуженно или незаслуженно. Это просто выборка лучшего кино в истории. Если вам не нравятся какие-то фильмы из списка — это нормально. Если ваш любимый фильм сюда не попал — это не повод для переживаний. Он ведь не стал от этого менее любимым. Просто «Яйца судьбы» не попадает в 250 лучших картин всех времен.