дата сайнс обучение вузы
Data Science: лучшие учебные курсы и программы сертификации
Можно получить два-три десятка Data Science-сертификатов, но по-настоящему стоящих программ сертификации из сферы науки о данных, по моему мнению, не так уж и много. Я хочу рассказать о нескольких таких программах, поддерживаемых авторитетными организациями. Эти программы я оцениваю по разным признакам. В частности — по объёму рассматриваемых в их рамках тем, по их «весу» в глазах потенциального работодателя, по репутации организации, реализующей программу. В последние несколько лет я являюсь и специалистом по анализу данных, и дата-сайентистом. Всё это время у меня формировалось понимание того, что сильнее всего влияет на успех человека в сфере Data Science (DS).
Здесь я рассмотрю ведущие программы Data Science-сертификации, входящие в список, собранный ресурсом Indeed. Из этого списка я выбрал четыре, которые кажутся мне наиболее достойными. Им и посвящён этот материал.
Google Certified Professional Data Engineer
Возможно, эта программа сертификации, которую я рассматриваю первой, кого-то удивит, так как она относится к сфере, отличной от Data Science. Но, несмотря на это, я уверен в том, что навыки и обязанности дата-инженера похожи на те, что характерны для дата-сайентистов. Ещё я думаю, что прохождение подобной сертификации может стать конкурентным преимуществом на рынке труда, так как дата-сайентист, получивший подобный сертификат, сможет эффективно работать не только в сфере науки о данных, но и в сфере инжиниринга данных.
Вот некоторые темы, знание которых проверяется на экзамене:
Общие сведения об экзамене:
Google Data Machine Learning Engineer
Это — ещё одна программа сертификации, которую тоже нельзя назвать программой, нацеленной исключительно на Data Science. Она, скорее, направлена на достаточно узкую тему, находящуюся в пределах науки о данных. Речь идёт о машинном обучении. Многие дата-сайентисты могут настолько привыкнуть к работе в Jupyter Notebook (ведь именно этому учат на большинстве DS-курсов), что необходимость вывода моделей в продакшн, необходимость их развёртывания на веб-сайте или в мобильной среде может вызвать у них серьёзные сложности. Поэтому тем, кто работает в сфере Data Science, весьма полезно будет ознакомиться и с вопросами практического применения моделей, что расширит их кругозор и сделает их работу эффективнее.
Вот темы, которые поднимаются на экзамене:
Общие сведения об экзамене:
IBM Data Science Professional Certificate
Это — уже не просто программа сертификации. Тут речь идёт о наборе учебных курсов, на которых можно изучить то, что проверяется во время прохождения испытаний. Эта программа сертификации, в отличие от предыдущих, ориентирована исключительно на саму науку о данных. А это, безусловно, именно та тема, которая нам особенно интересна. Ещё одной ценной особенностью этой программы является тот факт, что она подготовлена IBM, а пройти её можно на платформе Coursera. Обе эти компании известны и имеют хорошую репутацию.
Вот — 10 курсов, которые входят в состав учебной программы:
Общие сведения о программе учебных курсов:
Microsoft Certified Azure Data Scientist Associate
Как видите, в этом обзоре представлены программы сертификации от ведущих игроков IT-рынка. В их число входит и Microsoft. Если поучиться, поработать, пройти тестирование в любой из подобных компаний — это может пойти на пользу карьере дата-сайентиста. Представленная здесь программа напоминает смесь тех программ, о которых мы говорили выше. Это, с одной стороны, сертификация, но с другой — перед сертификацией тут же можно и подучиться, либо самостоятельно и бесплатно, либо — с инструктором и за деньги.
Вот темы, которые поднимаются на экзамене:
Итоги
В итоге скажу, что если вы сможете пройти все вышеописанные программы сертификации — полагаю, что вы будете более чем готовы к работе дата-сайентиста. Эти сертификации направлены на проверку знаний по популярным платформам и инструментам, а также — на проверку навыков, связанных с практическим использованием моделей. В частности, речь идёт о работе с бизнес-задачами, об анализе данных, о моделировании, о создании и развёртывании моделей. Конечно, если вы попробуете найти работу в компании, проводящей сертификацию, наличие сертификата повысит ваши шансы на успех. Подбирая себе программу сертификации учитывайте то, что те, о которых шла тут речь, я, руководствуясь собственным видением ситуации, выбрал из списка программ с ресурса Indeed. Есть ещё множество подобных программ. Вам, вполне возможно, подойдёт что-то совсем другое.
Как вы посоветовали бы учиться и сертифицироваться тому, кто хочет работать в сфере Data Science?
Как за два года получить высшее образование в Data Science без отрыва от работы
За три — выйти на уровень middle, минуя junior, за пять-семь — стать профессионалом высокого уровня и попасть в топ зарплат по отрасли. Никто не обещает, что это будет легко, но это возможно. Рассказываем, с чего начать, если интересен этот путь.
Совсем недавно мы выбирали одну профессию на всю жизнь. После школы или института человек шел работать по выбранной специальности. Потом сменить профессию было крайне сложно, если вообще возможно. Менеджеру захотелось стать разработчиком? Mission impossible. Сейчас это вполне реально, люди меняют специальность в любом возрасте благодаря онлайн-образованию. Учиться же можно без отрыва от работы.
Но есть другая проблема — онлайн-курсы редко дают теоретическую базу такого же качества, как хорошие вузы. В 2016 году самые крупные EdTech-стартапы, Coursera, Udemy и Udacity задумались над этой проблемой и начали сотрудничать с вузами. У них все получилось — появились серьезные программы подготовки специалистов, отвечающие стандартам высшего образования. Эти программы объединяют достоинства классического обучения, его фундаментальность, и новейшие разработки из сферы EdTech, её технологичность, удобство и возможность индивидуального подхода к каждому студенту. Сейчас интеграция вузов и EdTech началась и в России.
Пример — первая русскоязычная онлайн-магистратура «Наука о данных» по Data Science от НИТУ «МИСиС» и образовательной платформы SkillFactory. Это еще и первый в РФ случай партнерства частной EdTech-платформы с государственным вузом по модели OPM (Online Program Management).
Мы верим в модель OPM (Online Program Manager) — взаимодействие вузов и образовательных компаний в создании и реализации инновационных образовательных программ. Эта модель уже больше 10 лет успешно работает в США и Европе, и мы уверены, что в ближайшие годы она отлично покажет себя и в российских вузах. Мы рады привнести эту новую практику в Россию и помочь НИТУ «МИСиС» сделать первую русскоязычную онлайн-магистратуру по Data Science
OPM дает возможность вузам быстрее реагировать на запросы рынка, предоставляя студентам современные знания. EdTech-проекты, в свою очередь, делают образование более доступным в финансовом и географическом плане.
Благодаря сотрудничеству МИСиС и SkillFactory выпускник магистратуры получает практический опыт и знания по Data Science, соответствующие уровню миддла, так что выпускник представляет серьезный интерес для бизнеса
Эта цифровая специальность становится все более востребованной. Нужны промышленности, научным организациям, бизнесу, государству. Человечество генерирует все больше данных, в год около пары сотен эксабайт. Большая часть информации — неструктурированная, это сырые данные, которые необходимо обрабатывать и анализировать. Как раз этим и занимаются эксперты по Data Science.
По данным HeadHunter и Mail.ru Group спрос на таких специалистов быстро растет. С 2015 по 2019 гг количество вакансий в области анализа данных выросло в 9,6 раз, вакансий в сфере машинного обучения стало больше в 7,2 раза. И несмотря на это, сфера все еще находится в начальной стадии своего развития. Порог входа достаточно высокий, но вполне преодолимый. С течением времени требования работодателей к экспертам в сфере Data Science будут ужесточаться, поскольку отрасль эволюционирует. Так что если начать обучение сейчас, через 2-3 года студент станет востребованным профессионалом.
Активнее всего специалистов в сфере Data Science ищут IT-компании, финансовые организации и представители сферы услуг для бизнеса. они востребованы и в других сферах. Так, в медицине data scientists требуются для диагностики сложных заболеваний по результатам анализа, в маркетинге они помогают выявлять потребительские инсайты, в образовании — определить эффективность обучения класса, группы или всего вуза в целом. Harvard Business Review называет data scientist «самой желанной профессией XXI века». Часто приходится слышать, что рынок Data Science перегрет, но на самом деле хороших специалистов пока еще очень мало, а вот мест, где они требуются — очень много.
Data science — отрасль, которая ощутимо и понятно меняет мир вокруг нас, делая его эффективнее, быстрее и интереснее
Куда поступать, если хочешь заниматься data science?
Простой 3 комментария
увлекаюсь программированием с 14 лет.
В олимпиаде участвовали? А то места на 2019 год в топ вузах возможно уже заняты.
Сдаю математику, физику, информатику; пробники пишу на 80-85 баллов по каждому предмету.
Если вы вдруг решите рассматривать для поступления зарубежные вузы, то в этих университетах есть специальность Data Science.
США: Colorado State University, University of Vermont, University of Massachusetts Dartmouth
Канада: Simon Fraser University
Голландия: Radbound University, University of Amsterdam
Великобритания: University of Derby, University of Portsmouth
Ирландия: University College Cork
При поступлении не учитываются результаты ЕГЭ, а только смотрят на оценки в аттестате, результат экзамена IELTS, мотивационное письмо. Также фактор, что вы занимаетесь программированием с 14 лет может положительно повлиять на решение приемной комиссии, особенно если вы подтвердите это какими-то реализованными проектами, участием в тематических мероприятиях, полученными наградами. Успехов!
Специалист по большим данным: где учиться и куда пойти работать
Александр Петров, CTO E-Contenta, рассказывает, почему профессионалы в области обработки данных востребованы на рынке и где лучше работать специалистам по Big Data.
Мы живем в век информации, и ее количество растет очень быстро. Объем информации, которую потребляет современный человек за год, вскоре может оказаться больше, чем у наших предков за всю жизнь.
Данные, с которыми мы сегодня имеем дело, это не только книги, фильмы и web-страницы. Есть огромное количество данных, скрытых от конечного пользователя: ими оперируют компании. Это, например:
Умение правильно работать с этими данными позволяет предложить вам именно тот товар, который вы хотите, рассчитать оптимальную цену на перевозку в такси, отбраковать деталь на ранних этапах производства и в общем – сделать бизнес более эффективным.
Все больше компаний осознают этот тренд и создают у себя подразделения, специализирующиеся на данных. Также появляются новые молодые компании, работающие конкретно с данными. Так как область эта очень молодая и в вузах еще только-только начинают появляться соответствующие специализации – все это приводит к существенному недостатку специалистов на рынке, росту зарплат в области. А это, несомненно, делает профессию специалиста по работе с данными еще привлекательней.
В своей колонке я попытаюсь дать обзор направления обработки данных для тех, кто только начинает (или планирует начать) свой карьерный путь в этой области.
Какие есть специализации
Лично я выделил бы 3 основных направления, по которым можно развиваться в области обработки данных:
Рассмотрим каждое из них подробнее.
Data Engineer
Инженер – это тот, кто спроектирует такую систему обработки данных, которая сможет переварить петабайты данных и не лопнуть. Он знает все современные технологии и подходы в области обработки данных: MapReduce, Hadoop, Spark, Aerospike, Redis, Storm и т.д.
Он очень уверенно владеет командной строкой, знает, как разрабатывать отказоустойчивые решения, умеет настраивать красивые графики и понимать, что все в порядке c системой. Он легко может понять, где нужно использовать традиционные подходы, а где не обойтись без методов работы с большими данными (Big Data).
Data Scientist
Data Scientist умеет находить закономерности в больших массивах данных, хорошо знает область машинного обучения, уверенно владеет такими инструментами, как R, Weka, Python + Scikit-Learn + Pandas. Именно Data Scientist умеет извлекать из данных максимальную пользу и проектировать алгоритмы, которые будут давать ответы на нужные вопросы.
Область Data Science сама по себе довольно широкая, и в ней можно выделить еще несколько специализаций:
Data Manager
Специалист, в задачи которого не входит непосредственная разработка продукта. Однако он обязан представлять себе область, чтобы грамотно управлять проектом.
Он должен знать, что можно сделать при помощи современных технологий, а что – нельзя, уверенно владеть терминологией предметной области, а также иметь хороший навыки в техниках управления проектами (agile, SCRUM, экстремальное программирование и им подобных).
Где можно работать в области обработки данных
Разберем различные типы компаний и особенности работы в них.
Крупные интернет-компании. В России это – «Яндекс», Mail.ru (и его подразделения «ВКонтакте» и «Одноклассники»), Rambler. Именно интернет-компании стоят на передовой технологий, разрабатывают новые продукты и двигают индустрию вперед. В этих компаниях вы всегда найдете коллег, у которых будет больше опыта, чем у вас – и у них будет, чему поучиться.
Тут всегда отличные условия – белая зарплата, хорошая медстраховка, уютный офис, всяческие плюшки типа бесплатного питания и помощи в приобретении жилья. Ключевые сотрудники часто могут рассчитывать на опцион, реализация которого может принести существенную прибавку к зарплате.
Но самый главный минус работы в крупных компаниях – это их размер: работа, которую выполняете конкретно вы, может быть незаметна в масштабах всей компании (особенно в начале). Для кого-то это может быть существенно – хочется понимать собственную важность.
Исследовательские подразделения крупных компаний. Сюда можно отнести банки, аудиторские компании «большой четверки», телеком-операторов, крупные ритейл-сети.
В таких компаниях работе с данными в последнее время уделяют много внимания. Поскольку, как правило, они пока находятся в начале пути – вполне вероятно, что вы получите очень большой и ответственный кусок работы. Поэтому ваш вклад может быть заметен, несмотря на размер «махин».
Минусы: в таких компаниях, как правило, очень сильна внутренняя бюрократия, и вам будет довольно тяжело согласовывать и внедрять новые технологии. По моей оценке, отделы по работе с данными в таких местах, скорее, подходят для опытных специалистов.
Условия тут, как и в крупных интернет-компаниях, хорошие: белая зарплата, страховка и различные дополнительные приятности.
Стартапы в области обработки данных. Таких стартапов сейчас довольно много, и они также ищут сотрудников. При работе в стартапе вы будете делать очень существенную и важную часть работы. Если приходите среди первых сотрудников – можно претендовать на опцион или даже долю в компании.
К минусам можно отнести нестабильность (у стартапа могут внезапно закончиться деньги), зарплата будет зачастую серая – и, как правило, прелести вроде бесплатных обедов и помощи при покупке жилья недоступны. Зато в стартапе максимально быстро можно получить глубокие знания, а в случае успеха – еще и хорошо заработать.
Где получить знания в области обработки данных
Вузы
К сожалению, пока что в вузах очень мало обучают анализу данных. Есть несколько исключений:
Конечно, и в других учебных программах также освещаются те или иные аспекты работы с данными. Но вузовские программы, которые готовят специалистов комплексно, на этом фактически исчерпываются. Неудивительно: отрасль совершенно новая, специалистов и преподавателей нет. Вузы, где все-таки вводятся программы по обработке данных, обычно делают это в сотрудничестве с крупными компаниями (например, «Яндексом»).
Некоммерческие курсы дополнительного образования
Так как на рынке наблюдается острый дефицит кадров – некоторые компании создают собственные учебные центры. Здесь может учиться любой желающий – нужно только сдать экзамены.
В этой категории можно смотреть на следующие курсы:
Коммерческие курсы
Есть несколько коммерческих программ, позволяющих расширить свой кругозор в области анализа данных. Их отличительные черты – короткий срок обучения и большая направленность на прикладное применение технологий.
Тут можно вспомнить следующие проекты:
Онлайн-образование
В последнее время отрасль онлайн-образования переживает настоящий бум, и на ресурсах вроде Coursera, Edx, Stepic и Udacity можно найти огромное число курсов по обработке данных. Большинство – англоязычные (кстати, знание английского языка очень полезно в нашей области), но есть и несколько русскоязычных:
Заключение
В этой колонке я собрал актуальную на текущий момент информацию на рынке труда в области больших данных.
Смотря в будущее – нет никаких оснований полагать, что спрос на специалистов упадет в ближайшие несколько лет. Что это значит? Если вас интересует область анализа данных, то, получив образование и опыт в данном направлении, вы будете ценным специалистом на рынке труда и точно не останетесь без работы.
Надеюсь, статья помогла вам определиться со своими интересами и понять, с чего начать обучение.
Самообучение в Data science, с нуля до Senior за два года
Хочу поделиться методами освоения Data science с нуля человеком из другой ИТ специальности. Цель: дать понять, подходит ли Вам эта специальность в принципе, и рассказать про эффективные подходы к самообучению, которые мне помогли (отдельно планирую потом детальные статьи по отдельным темам).
Отличные материалы уже существуют по большинству конкретных тем, я сам по ним учился.
Думаю, многим будут полезны «мета» материалы о том, как выбирать курсы и статьи, по которым учиться. Например, я пересмотрел десятки статей и книг, пробовал много разных он-лайн курсов, но полезной оказалась лишь малая часть всего доступного. Надеюсь, что смогу серьезно сэкономить вам время и помочь достигнуть большего, показав более эффективный путь самообучения.
И важно сказать сразу: я верю, что любой человек с аналитическими способностями и структурным мышлением может стать специалистом по машинному обучению/data science. Еще 4 года назад я сомневался, потеряв веру в свои математические способности из-за преподавателей университета. Теперь верю: основы машинного обучения и минимально необходимую математику сможет выучить любой сильно замотивированный человек.
Когда я понял, что скоро мне стукнет 30 лет, решил уйти в другую сферу и переехать из РФ. В своей сфере (1С) я был карьерно успешен, но стало ясно, что дальнейший рост очень затруднителен и требует выполнять работу, которая мне неинтересна и почти противна.
Через полгода перебора вариантов решил, что Data science мне интереснее всего.
Ещё через год имел достаточную квалификацию и прошёл собеседование на работу в Чехии (оговорка: у меня еще до этого было неплохое знание английского).
Ещё через год стал Senior Data scientist в Vodafone (мой LinkedIn).
Мне помогло то, что до этого я сформировал привычки к самообразованию, а экономность не позволила мне пойти по самому простому пути: найти онлайн курс с именитыми преподами, заплатить им много денег и довериться, что они всему научат лучше всего. В итоге я перебирал много бесплатно доступных книг и курсов (книги часто были найдены на b-ok.org). Из всех курсов и книг отбирал самые лучшие, забрасывая то, что казалось слишком теоретизированными или плохо структурированным.
На основе этих десятков книг и курсов я и сформировал то мнение, которым хочу поделить. Вероятно, существует еще более эффективный и быстрый способ научится этому всему. То, как учился я, было всего-лишь быстрее большинства платных программ, которые я видел, и заодно бесплатным (на многие лучшие англоязычные курсы всегда можно записаться бесплатно; покупал я только книги русских авторов и пару книг, которые иначе не смог найти).
Сначала надо понять, что такое Data science/машинное обучение и подойдет ли оно вам
Потому что если это просто модное слово и вы хотите получать много денег или работать в Гугл, то легче заработать на позиции маркетолога или веб-аналитика, и это тоже достаточно аналитичная работа.
Если вы человек творческий, возможно, разработка интерфейсов (фронтенд, мобильные приложения) вам подойдёт больше.
Если вы от природы аналитик и любите разбираться в данных, но программирование вас не заинтересует, а на изучение всей математики вам не хватает времени, стоит выбрать тот же самый учебный путь! Просто сделать акцент на мнее математических задачах, и не лезть в программироване сложных систем. Аналитики, знающие основы data science, тоже нужны в компаниях.
Важно, чтобы работа зажигала. Без искреннего интереса «грызть» Data science будет тяжело, потому что надо разобраться в куче нюансов, особенно если у вас нет за плечами хороших знаний в статистике, линейной алгебре и мат.анализе.
Как понять, будет ли вам интересно заниматься именно data science?
Мне кажется, что идеально эту роль выполняет книга Datasmart (выше писал сайт, на котором я нашёл её бесплатно). На русский она тоже переведена: «Много цифр. Анализ больших данных при помощи Excel, Джон Форман». Хотя, если вы хотите работать в data science, знание английского необходимо (технический английский выучить намного легче разговорного, и это будет очень полезно для любой работы в ИТ).
Эта книга показывет многие из технических методов Data science на уровне интуиции и даёт сразу достаточно детальное представление о решаемых задачах и где в бизнесе можно применить данные модели.
Если эта книга не вызовет интерес разобраться во всех указанных алгоритмах детальнее, вероятно, работа в data science не для вас.
Если книга интересн вызовет, но вам также хочется больше программировать, скорее всего, вам интересно будет стать machine learning engineer. Разница между data scientist и machine learning engineer в том, что первый должен общаться с людьми и понимать, какую задачу имеет смысл решать, а второй должен уметь состыковать программы с «искусственным интеллектом» с другими ИТ системами, мобильными телефонами или требованиями обрабатывать огромные объемы данных.
Что учить
Если вы решили, что готовы «грызть гранит науки», то в образовании специалиста data science есть два кита:
Непосредственные методы Data science, которые стоят на трёх математических черепахах: теории вероятностей и статистике, линейной алгебре и основах мат.анализа (только основах, там требуется минимум сверх школьного курса «алегбра и начало анализа»). Кстати, вся эта математика далеко не так сложна. Проблема в том, что её плохо и неинтересно объясняют во многих вузах. Позже поделюсь советами, как её можно легче освоить.
Программирование на Python (+SQL и подобные), которое позволит применить все изученные методы с помощью логичных и простых в своей сути библиотек готовых функций.
Даже примерный учебный план для изучения методов Data science требует отдельного поста. Ниже напишу чуть подробнее про Python и SQL
Английский необходим!
Принципы эффективного обучения
Программирование: что и как учить?
Что такое SQL и зачем его учить?
SQL является стандартом для получения данных в нужном виде из разных баз данных. Это тоже своеобразный язык программирования, который дополнительно к своему основному языку используют многие программисты. Большинство самых разных баз данных использует один и тот же язык с относительно небольшими вариациями.
Как учить SQL:
Наберите в Гугле «sql tutorial» и начните учиться по первой же ссылке. Если она вдруг окажется платной, выберете другую. По SQL полно качественных бесплатных курсов.
На русском языке тоже полно курсов. Выбирайте бесплатные.
На изучение достаточно всего лишь от 10 часов (общее понимание), до 20 часов (уверенное владение большей частью всего необходимого).
Почему именно Python?
У всех других языков программирования какие-либо специализированные библиотеки для машинного обучения есть только в зачаточном состоянии.
Как учить Python
Прочитать основы и пройти все упражнения с этого сайта можно за 5-40 часов, в зависимости от вашего предыдущего опыта.
После этого варианты (все эти книги есть и на русском):
Learning Python, by Mark Lutz (5 издание). Существует и на русском.
Есть много книг, которые сразу обучают использованию языка в практических задачах, но не дают полного представления о детальных возможностях языка.
Эта книга, наоборот, разбирает Python досконально. Поэтому по началу её чтение будет идти медленнее, чем аналоги. Но зато, прочтя её, вы будете способны разобраться во всём.
Я прочёл её почти целиком в поездах в метро за месяц. А потом сразу был готов писать целые программы, потому что самые основы были заложены в pythontutor.ru, а эта книга детально разжевывает всё.
В качестве практики берите, что угодно, когда дочитаете эту книгу до 32 главы, и решайте реальные примеры (кстати, главы 21-31 не надо стараться с первого раза запоминать детально. Просто пробежите глазами, чтобы вы понимали что вообще Python умеет).
Не надо эту книгу (и никакую другую) стараться вызубрить и запомнить все детали сразу. Просто позже держите её под рукой и обращайтесь к ней при необходимости.
Прочитав эту книгу, и придя на первую работу с кучей опытных коллег, я обнаружил, что некоторые вещи знаю лучше них.
Python Crash Course, by Eric Matthes
Automate the Boring Stuff with Python
Книга хороша примерами того, что можно делать с помощью Python. Рекомендую просмотреть их все, т.к. они уже похожи на реальные задачи, с которыми приходится сталкиваться на практике, в том числе специалисту по анализу данных.
Какие трудозатраты?
Путь с нуля до уровня владения Python, на котором я что-то уже мог, занял порядка 100ч. Через 200ч я уже чувствовал себя уверенно и мог работать над проектом вместе с коллегами.