Что такое data science в программировании
Перейти к содержимому

Что такое data science в программировании

  • автор:

Data Scientist

День работников статистики

Data Scientist — это человек, который работает с большими объемами данных. Вот прям с огромными. Он умеет их добывать, анализировать, но главное — обрабатывать.

средняя зарплата
удовлетворенность

Что делает Data Scientist

Data Scientist — человек с отличными математическими и аналитическими способностями, и совсем необязательно это должен быть только программист. Зачастую это направление интересно специалистам по прикладной математике и статистике, а также аналитикам. Data Scientist понимает, в каком виде данные воспримет компьютер и предоставляет ему их. Таким образом, компьютер может извлечь ценную информацию из полученных данных и использовать ее во благо. Например, на Data Science основаны Self-driving cars, персонализированные интерфейсы, медицинская система IBM Watson, подсказки на ресурсах типа Aliexpress, Amazon, Netflix.

Data Scientist работает с данными из различных источников: собирает их, структурирует, выделяет и синтезирует. Для него важно обеспечивать выводы и действия, основанные на собранных данных. В своей работе специалист использует различные языки программирования — SAS, R и Python, а также аналитические методы. Работая с большими данными, нельзя обойтись без статистики, поэтому Data Scientist занимается еще и статистическими тестами и распределениями.

Data Scientist должен быть готов к упорной работе, ведь ему постоянно предстоит искать идеальную формулу для обучения искусственного интеллекта. К тому же, часто нет очевидного решения проблемы, поэтому среди всех алгоритмов специалистам приходится подыскивать подходящий под конкретную задачу.

Сколько получает Data Scientist

По классике: чем больше опыта у Data Scientist, тем выше его ставка. К тому же, размер зарплаты зависит еще и от региона — к примеру, в столичной компании ставка будет выше. А если вы еще и знаете Python, Java и Hadoop, то ваша средняя зарплата вырастет на 5-14%.

Кто такой Data Scientist, чем он занимается и сколько зарабатывает

Кто такой Data Scientist, чем он занимается и сколько зарабатывает главное изображение

Data Scientist — это специалист, который работает с данными компании: анализирует, ищет в них зависимости и на основе этой информации делает выводы.

Data Scientist создает алгоритмы, которые решают разные бизнес-задачи и улучшают процессы: показывают пользователям интересный контент и повышают их вовлеченность, предсказывают пики и падения продаж, повышают качество производства. Например, с помощью таких алгоритмов Data Scientist может:

  • Предсказывать продажи, поведение покупателей и спрос на отдельные группы товаров для того, чтобы бизнес мог скорректировать стратегию или эффективнее управлять запасами.
  • Анализировать поведение посетителей на сайте, чтобы улучшать маркетинговые кампании и делать ставку на наиболее интересный потребителю контент.
  • Анализировать текстовые данные, чтобы выявлять тренды в соцсетях.
  • Анализировать большие данные, чтобы выявлять закономерности и на их основе делать научные прогнозы или целые открытия, как в случае с нейросетью AlphaFold , которая смогла расшифровать механизм сворачивания белка.

Аналитик данных — с нуля до трудоустройства за 9 месяцев

  • Постоянная поддержка от наставника и учебного центра
  • Помощь с трудоустройством
  • Готовое портфолио к концу обучения
  • Практика с первого урока

Вы получите именно те инструменты и навыки, которые позволят вам найти работу

Где нужен Data Scientist

Дата-сайентист может найти работу практически в любой отрасли, где генерируется подходящая для обработки и анализа информация: данные о клиентах, научных или производственных процессах, цифры, метрики, статистика.

В банках такие специалисты создают модели банковского скоринга — именно они определяют, под какой процент вам одобрить ипотеку. В промышленности с помощью анализа данных предсказывают поломки оборудования, занимаются георазведкой и следят за безопасностью. В e-commerce и ретейле повышают продажи благодаря рекомендательным системам и персональным подборкам для покупателей.

Чаще всего таких экспертов нанимают в крупные компании или стартапы. Первые — потому, что Data Science требует немалого бюджета на сбор и анализ данных. Вторые — из-за того, что Data Science является частью инновационной идеи и может стать драйвером роста компании.

Какие задачи решает Data Scientist: разбираем на примере

Допустим, дата-сайентисту нужно построить модель для сотового оператора, чтобы находить абонентов в «группе риска» — тех, кто собирается отказаться от услуг или сменить тариф.

Для этого нужно:

Собрать данные

Это значит определить, есть ли выборка данных и целевая переменная — описание признака, который будет предсказывать модель. Например, если для выборки из 100 человек точно известно, кто отказался от услуг, а кто остался с оператором — переменная есть, и можно строить эффективную модель. Если же из 100 участников кто-то ушел, кто-то остался, но кто — неизвестно, модель может давать сбой.

Сбором данных обычно занимается ML-engineer или дата-инженер. Его задача — передать data scientist релевантные, подготовленные и очищенные данные.

Так выглядит тренировочный датасет в задании Мегафона на Kaggle – в нем представлены обезличенные данные по использованию абонентами различных телеком-услуг.

Важно не только понять, какие данные есть по каждому объекту, но и оценить их надежность. Например, в каждой выборке есть ложные данные, когда человек указал о себе неверную информацию: скажем, в графе возраст написал «900 лет».

Выбрать модель и подготовить данные

На этом этапе важно обеспечить качество информации, на которой будет обучаться модель. Без этого алгоритм может выдать неправильный, ошибочный результат. Подготовить данные – значит трансформировать в удобную форму, которая называется матрицей объектов и признаков. Она и выглядит как таблица со всеми признаками — атрибутами — обучающих данных.

Оценить результат

Один из ключевых этапов — когда аналитик data science на основе опыта, интуиции и профессиональных навыков решает, насколько эффективной получилась модель. Сможет ли она работать не на обучающих, а на реальных данных — или алгоритм переобучился, то есть «вызубрил» ответы для этой выборки и будет бесполезен при анализе новой информации.

Чем Data Scientist отличается от Data Analyst и Data Engineer

В задачах, требующих анализа данных, может участвовать не только Data Scientist, но и другие специалисты. Например, выше мы упомянули Data Engineer, который собирает и готовит данные для Data Scientist.

А еще есть Data Analyst — специалист, который анализирует и визуализирует данные, чтобы помогать руководителям бизнеса принимать решения.

На первый взгляд эти профессии похожи, их часто путают. Но в действительности это разные специалисты:

Data Engineer собирает и готовит данные для аналитиков и специалистов по Data Science. Он не обучает модели, но много программирует, работает с базами данных: выгружает оттуда информацию, обрабатывает и создает для них хранилища.

Data Scientist и Data Engineer часто работают в связке: один готовит данные, другой использует их для экспериментов с моделями. А вот Data Analyst решает совсем другие задачи: он изучает статистику, ищет инсайты — выводы на основе данных — и подбирает для них визуально понятную форму. Задача дата-аналитика — найти ответ на конкретный вопрос бизнеса. Например, предсказать, какие товары будут пользоваться спросом или определить, в какие направления работы компании стоит инвестировать, а какие, напротив, сократить.

Читайте также: Гид по профессии аналитик данных: кто это, чем занимается и сколько зарабатывает

Что нужно знать и уметь, чтобы стать Data Scientist

Такому специалисту нужно хорошо знать математику: линейную алгебру, теорию вероятности, статистику, математический анализ. Придется разобраться с теорией машинного обучения, овладеть базовыми навыками программирования на Python, изучить фреймворки для машинного и глубокого обучения, а также научиться работать с языком SQL, который позволяет получать информацию из баз данных.

Это — базовые необходимые знания для начинающего специалиста. От опытного data scientist ждут умения решать сложные задачи: строить высоконагруженные модели — такие, которые смогут запускаться, скажем, сотни раз в секунду для каждого отдельного клиента. Или предотвращать неочевидные ошибки, когда модель переобучается из-за того, что в обучающую выборку попало лишнее поле.

Такие навыки получаются только с опытом, поэтому, помимо теории, в Data Science очень важна практика. И здесь у профессии есть преимущество: набивать руку можно практически с начала обучения, участвуя в открытых конкурсах по машинному обучению. Например, самое известное сообщество специалистов по Data Science — платформа Kaggle, где есть много обучающих материалов, но главное — соревнования от компаний.

Одно из самых известных соревнований Kaggle — задача на построение модели, которая определит, кто из пассажиров Титаника выживет в катастрофе.

Участие, и тем более победа в таких соревнованиях — это готовое портфолио, которое можно показать заказчику, и реальный опыт решения ML-задач.

Kaggle и другие соревнования могут стать для начинающего Data Science трамплином из джуниор в сеньор-специалиста. Практический опыт можно получить «в боевых условиях» и, доказав свою способность решать сложные задачи, претендовать на более высокую позицию.

Сколько зарабатывает Data Scientist

Уровень зарплаты зависит от опыта специалиста, региона и размера компании. Ниже – примеры вакансий для Москвы.

Junior Data Scientist может зарабатывать до 100 тысяч рублей.

Специалист со средним опытом — от 170 до 250 тысяч рублей.

Head of Data Science с опытом более 6 лет и большим стеком технологий — от 300 тысяч рублей.

Плюсы и минусы работы Data Scientist

Плюсы

Востребованная профессия

По данным Всемирного экономического форума , Data Analysts & Scientists — лидеры списка самых актуальных профессий до 2025 года.

Высокая зарплата

У разработчиков и Data Science-специалистов сопоставимые гонорары: по данным из вакансий hh.ru на май 2023, мидл Data Scientist в среднем может претендовать на ту же зарплату, что и мидл Python-разработчик.

Динамичный карьерный рост

В Data Science проще с практическим опытом: можно решать задачи на конкурсах, участвовать в Kaggle или хакатонах, собирать портфолио и быстрее расти в карьере.

Интересная работа

DataScience — одна из самых молодых и динамично развивающихся отраслей. Здесь много интересного. Например, можно автоматизировать задачи и отрасли, развивать науку, прокачиваться в глубинном обучении — области, где искусственный интеллект решает очень сложные задачи.

Минусы

Высокий порог входа

Специалисты Data Scientist должны хорошо знать математику, теорию машинного обучения. А еще — постоянно учиться, чтобы успевать за инновациями в сфере AI, которая меняется буквально на глазах.

Непонимание со стороны бизнеса

Несмотря на то, что машинное обучение находит применение практически во всех сферах, есть много областей, где построение моделей неэффективно: нет достаточного количества данных или четкой целевой переменной. В этом случае от Data Scientist могут ждать невозможного или нагружать нерелевантными задачами.

Кто такой Data Scientist и как им стать — итоги

  1. Data scientist создает модели машинного обучения — математические алгоритмы, которые на основе большого количества информации ищут закономерности и делают прогнозы.
  2. Специалисты по данным или Data Scientists работают практически во всех отраслях и сферах, чаще всего — в крупных компаниях или стартапах.
  3. Чтобы стать Data scientist, нужно изучить теорию: повторить или углубить знания в математике, разобраться с теорией машинного обучения.
  4. Получить практический опыт можно на соревнованиях и открытых конкурсах — это шанс разобраться в тонкостях профессии, получить хороший опыт и стать востребованным специалистом.

Профессия «Аналитик данных»

  • Изучите востребованную в каждой компании профессию и помогайте бизнесам расти и развиваться
  • Научитесь собирать, обрабатывать, изучать и интерпретировать данные с помощью SQL и Google Sheets
  • Освойте когортный анализ и визуализацию данных с помощью Superset и библиотек Python

Ни за что не становись Data Scientist’ом!

Cовет, который я даю, когда кто-то спрашивает меня, как стать Data Scientist’ом. Вместо этого, лучше стань программистом.

Сейчас очень многие рвутся стать специалистами по данным. Но в то время, как data science является, возможно, самой желанной профессией 21 века, обесценивается другая не менее полезная и высокооплачиваемая специальность — программист.

Я часто получаю сообщения от выпускников и людей, собирающихся поменять профессию, которые спрашивают меня о том, с чего начать изучение науки о данных. Вместо этого, я советую им стать программистами.

Имея опыт того и другого, я постараюсь убедить вас стать именно разработчиком программного обеспечения.

1. В области программирования больше рабочих мест

В программной инженерии на порядок больше рабочих мест по сравнению с наукой о данных.

Ниже приведено несколько снимков экрана после поиска в Google «специалист по данным» и «программист».

7616 рабочих мест в data science по сравнению с 53 8893 рабочими местами в программировании. Это рабочие места в США, но другие страны показали аналогичные результаты.

Согласно Glassdoor, специалисты по данным зарабатывают больше, но моя гипотеза также гласит, что работа в data science требует и больше знаний.

Тем не менее, если вам предложат зарплату 1 млн долларов в области искусственного интеллекта — соглашайтесь!)

2. Нет единого мнения, что означает «Data Science»

У руководства часто нет единого мнения о том, что означает наука о данных. Также опыт показывает, что, учитывая ограничения в бизнесе, у них нет возможности строго следовать структуре распределения ролей.

Это означает, что обязанности «data scientist’а» в разных компаниях сильно различаются.

Хотя идеальный спектр должностей между программистом и специалистом по данным может существовать, маловероятно, что он будет реализован на самом деле. Это особенно касается стартапов, создающих основу инфраструктуры.

Наемные кандидаты в конечном итоге работают над проблемами, которые на самом деле необходимо решать силами компании, а не силами сотрудника, который только что был принят на должность data scientist.

Один из смешных случаев среди коллег в данной области заключался в том, что многие специалисты по данным писали бэкэнд-код, как разработчики программного обеспечения. Я знаю и других data scientist’ов, которые сидели в Excel и ломали головы над финансовыми вопросами.

Это резко контрастирует с тем, что вы ожидаете, если вы выросли на соревнованиях Kaggle.

3. Изолированность Data Science

Большинству компаний не нужно столько специалистов по данным, сколько программистов. Другие компании только еще нанимают своего первого data scientist’а прямо сейчас.

По этой причине многие специалисты по данным работают в одиночку, даже если они сидят за одним столом с разработчиками.

Тут возникают сложности с получением обратной связи и мнения со стороны. Программисты либо не разбираются в прогнозном моделировании, либо слишком заняты работой над совершенно другими проблемами.

Напротив, одним из преимуществ наличия целой команды разработчиков является возможность сказать коллегам: «Я думаю, что мы должны внедрить ABC в XYZ. Что вы думаете на этот счет?»

Будьте готовы поговорить с самим собой . или с резиновой уткой (прим.пер. Метод тестирования ПО).

4. Data Science — это исследование

Будьте готовы к неловким разговорам с руководством о том, почему то, на что вы потратили 2 недели, не может быть использовано.

Работа над решенными и нерешенными проблемами — одно из фундаментальных отличий между разработкой программного обеспечения и ИИ.

Помимо ошибок и ограничений, вы уже знаете, возможно ли реализовать большинство проектов по разработке программного обеспечения еще до начала самой работы. Чего нельзя сказать о ML, когда вы не знаете, будет ли модель эффективной до тех пор, пока вы ее не построите.

5. Компании не готовы к AI

Даже в эпоху, когда каждая компания внедрила искусственный интеллект, у большинства из них нет инфраструктуры для ее поддержки.

Глава Data Science за чашечкой кофе недавно поделился советами для быстро растущего стартапа:

Сначала вы определяете проблему, затем создаете инфраструктуру и только потом привлекаете специалистов по данным. Это не быстрый процесс.

Еще один крупный специалист по Data Science в известной компании недавно высказался мне. Она была вынуждена обучать модели искусственного интеллекта на больших данных на своем ноутбуке, а не в облаке.

Если перед компанией не стоит специфичная проблема, которая решается только силами Data Science, или инфраструктура компании не подготовлена к решению таких вопросов, то вы, скорее всего, столкнетесь с трудностями, доказывая свою значимость, как специалиста.

6. Программирование учит общим навыкам

Стать младшим инженером-программистом — все равно, что получить степень MBA в области технологий. Вы узнаете всего понемногу.

Вы изучите базы данных, облачные технологии, развертывание, безопасность и написание чистого кода.

Вы научитесь создавать программное обеспечение, наблюдая за лидером отдела, старшим разработчиком или руководителем проекта.

Вы получите наставничество через обзоры кода.

Если вы окажетесь в компании с устоявшейся командой разработчиков, почти гарантировано, что вы быстро улучшите свои навыки и обретете колоссальный опыт.

7. Программная инженерия более передаваема

Предоставляя более комплексный опыт в области технологии, разработка программного обеспечения дает лучшие возможности выхода, когда вы решили, что пришло время перемен.

DevOps, безопасность, интерфейс, бэкэнд, распределенные системы, бизнес-аналитика, инженерия данных, наука о данных…

Я знаю ряд разработчиков, которые перешли от программирования к науке о данных. Если вы пробежитесь глазами по требованиям к специалисту в Data Science, то сразу заметите там массу требуемых навыков программиста:

  • Опыт работы с SQL и Python, R или SAS;
  • Знание AWS;
  • Знание Linux;
  • Знание экспериментального дизайна для бизнес-экспериментов;
  • Знание систем DevOps, таких как GitLab;

Если вы можете создавать сквозные проекты, то вы также можете сделать как минимум модель для Kaggle. Вы можете взять эту модель, произвести ее, настроить авторизацию и Stripe, а затем начать взимать плату с пользователей за доступ. Это ваш собственный стартап.

Я бы никогда не стал утверждать, что наука о данных не подлежит передаче. Принятие решений на основе данных является по истине убойным навыком. Но это также становится чем-то большим, чем когда-либо, поскольку мы все больше ориентируемся на данные.

8. Машинное обучение станет инструментом для разработчиков программного обеспечения

По мере того, как ИИ становится удобнее и проще в использовании, разработчики программного обеспечения начинают использовать его для решения своих задач.

Я могу научить разработчика создавать классификаторы Sklearn. Это не значит, что он сможет построить следующий Alphago, но это дает ему альтернативу жестко запрограммированной условной логике, основанной на пользовательском вводе.

Data scientist’ы имеют специальные знания, такие как статистика и интуиция, о том, как работают модели. Но инженеры DevOps и Security также имеют свои специальные знания.

Я бы сказал, что они больше общие, чем разные. Опытный специалист по программному обеспечению может очень быстро перемещаться между специальностями.

Хотя я не думаю, что мы увидим полное слияние науки о данных с разработкой программного обеспечения, но похоже, что наука о данных может стать еще одной специальностью программирования.

9. AI не заменит программистов

Как бы глупо это ни звучало, я занялся разработкой программного обеспечения в 2014 году, потому что боялся, что ИИ изживет любую другую профессию.

Но дело в том, что внедрение технологий происходит медленно, а ИИ намного Уже, чем вы можете себе представить.

По сравнению с другими профессиями, машинное обучение очень далеко от автоматизации разработки программного обеспечения. Хотя у нас есть стартапы, создающие классные продукты, такие как автозавершение кода с поддержкой AI , написание кода — не специальность. Суть профессии все же заключается в решении задач с использованием технологий. А это то, что останется ценным и высокооплачиваемым навыком.

Заключение

Во-первых, это слегка нелепо. Во-вторых, я понимаю, что я объединил специалистов по данным, инженеров ML и исследователей ИИ. Но я думаю, что эти аргументы все же стоит рассмотреть, учитывая, что это ваша карьера.

Не воспринимайте это слишком серьезно. Я бы предпочел, чтобы вы прочли это и приняли собственное решение. Это часть того, чтобы стать data scientist’ом в конечном итоге 🙂

В конце концов, нам платят за решение проблем.

Data Scientist (Специалист по обработке, анализу и хранению больших массивов данных)

Data Scientist (Специалист по обработке, анализу и хранению больших массивов данных)

Data Scientist (дата-сайентист или датасаентист) обрабатывает и анализирует массивы больших данных (Big Data), чтобы с использованием алгоритмов машинного обучения найти в них новые связи и закономерности и построить прогнозную алгоритмическую модель, которую можно использовать для решения задач бизнеса, науки, повседневной жизни. Профессия подходит людям с аналитическим складом ума и способностями к математике. Кстати, недавно центр профориентации ПрофГид разработал точный тест на профориентацию, который сам расскажет, какие профессии вам подходят, даст заключение о вашем типе личности и интеллекте.

Data Science – наука о данных на стыке разных дисциплин: математика и статистика; информатика и компьютерные науки; бизнес и экономика.

С. Мальцева, В. Корнилов. НИУ ВШЭ

Профессия новая, актуальная и чрезвычайно перспективная. Термин Big Data появился в 2008 году. А профессия Data Scientist – «учёный по данным» официально зарегистрирована как академическая и межотраслевая в начале 2010 г. Хотя первое упоминание термина data science было отмечено в книге Петера Наура 1974 г., но в ином контексте.

Как узнать, подходит ли вам профессия «Data Scientist»?

Тест на профориентацию

Читайте также

Профессия «Data Mining Specialist»

Краткое описание

Data Scientist работает с Big Data (большими данными) – огромными массивами неструктурированной информации.

  • Мечтаешь создать свою игру?

Мечтаешь создать свою игру?
Воплоти мечту в реальность вместе с XYZ School!

Черная пятница в Skillbox: месяц инвестиций в себя!

Черная пятница в Skillbox: месяц инвестиций в себя!
Получи скидку, курс в подарок и гарантию трудоустройства, чтобы стать востребованным специалистом.

Массивы больших данных подразделяют на 3 вида:

  • структурированные (например, данные кассовых аппаратов в торговле);
  • полуструктурированные, или слабоструктурированные (сообщения email, статистика из трекеров событий: Yandex.Metrika, GAnalytics и т. д.);
  • неструктурированные (видеофайлы, изображения, текстовые посты в соцсетях, метеорологические сводки, аудиозаписи, результаты спортивных матчей, базы геномов и многое другое).

Большая часть информации в Big Data – это неструктурированные или слабоструктурированные данные, что значительно усложняет их анализ. В работе с такими данными дата-сайентист пользуются методами математической статистики и машинного обучения (machine learning, ML).

  • Скидки 70% и подарки на сумму до 260 000 ₽

Скидки 70% и подарки на сумму до 260 000 ₽
Покупаете один курс — получаете два. Год английского от Skyeng +1 профессия в подарок.

НОВОГОДНЯЯ РАСПРОДАЖА SKILLBOX

НОВОГОДНЯЯ РАСПРОДАЖА SKILLBOX
При покупке курса со скидкой до 60% выберите второй курс в подарок.

Яндекс.Практикум, скидки 20%

Яндекс.Практикум, скидки 20%
Приходите учиться любой профессии со скидкой 20% в честь сами знаете чего!

Задача дата-сайентиста – проанализировать большие данные, чтобы на их основании сделать прогнозы. Какие именно – зависит от решаемой задачи. Результат работы Data Scientist′а – прогнозная модель, упрощённо, это программный алгоритм, который находит оптимальное решение поставленной задачи.

Благодаря работе дата-сайентистов бизнес может принимать взвешенные решения, основанные на разного рода данных, и опережать своих конкурентов, а продукты становятся более удобными и полезными для людей.

Особенности профессии

Обычные специалисты по статистике, системный аналитик или бизнес-аналитик по отдельности не могут обрабатывать массивы информации, которые относятся к категории Big Data. Для этого нужен профи с междисциплинарным образованием, компетентный в математике и статистике, экономике и бизнесе, информатике и компьютерных технологиях, – специалист по работе с данными, то есть Data Scientist.

Главные задачи Data Scientist´а:

  • извлекать необходимую информацию из самых разнообразных источников, используя информационные потоки в режиме реального времени;
  • устанавливать скрытые закономерности в массивах данных и статистически анализировать их для принятия грамотных бизнес-решений.

Рабочиее место датасайентиста – не 1 компьютер и даже не 1 сервер, а кластер серверов.

Data Scientist, как настоящий учёный, занимается не только сбором и анализом данных, но и изучает их в разных контекстах и под разными углами, подвергая сомнению любые предположения. Важнейшее качество дата-сайентиста – это умение видеть логические связи в системе собранной информации и на основе количественного анализа разрабатывать эффективные бизнес-решения. В современном конкурентном и быстро меняющемся мире, в постоянно растущем потоке информации Data Scientist незаменим для принятия правильных бизнес-решений.

Что делает Data Scientist

В разных компаниях задачи дата-сайентиста будут отличаться, но основные этапы работы похожи:

  1. Выяснить, что нужно заказчику.
  2. Оценить, возможно ли решить поставленную задачу методами машинного обучения (ML).
  3. Собрать данные для анализа, преобразовать их в формат, более удобный для работы по методике ML. (Если возможность применить ML есть, а если целесообразнее использовать методы математической статистики, визуализации, то задачу решает бизнес-аналитик.)
  4. Найти критерии оценки, чтобы выяснить, насколько эффективной будет модель, которую предстоит создать.
  5. Запрограммировать и «натренировать» модель ML.
  6. Оценить экономическую целесообразность применения этой модели (на этом этапе возможна помощь других специалистов – бизнес-аналитика, главного экономиста предприятия и др.).
  7. Внедрить модель в производство/продукт.
  8. Сопровождать внедренную модель – дорабатывать, если нужно, или адаптировать под текущие запросы заказчика.

Что можно сделать по такому шаблону? Очень много. Дата-сайентисты создали сотни сервисов, к которым мы давно привыкли и пользуемся каждый день. Алгоритмы поисковых систем, прогнозы погоды в смартфонах, голосовые помощники, программы распознавания лиц или изображений, рекомендательные алгоритмы, подбирающие видео и музыку или потенциальных друзей в соцсетях, чат-боты – всё это плоды трудов Data Scientist′ов.

В работе с данными Data Scientist использует:

  • статистические методы;
  • моделирование баз данных;
  • методы интеллектуального анализа;
  • искусственный интеллект для работы с данными;
  • методы проектирования и разработки баз данных.

Разница между Data Scientist и другими Data-специалистами

С Big Data работают многие специалисты, но у каждого из них свои инструменты и цели.

Отличие Data Scientist от Business Analyst

Дата-сайентист и бизнес-аналитик (Business Analyst) делают выводы, опираясь на данные, но разница состоит в результате их работы. Data Scientist находит в данных связи и закономерности, чтобы создать прогнозную модель и предсказать результат. Фактически дата-сайентист смотрит в будущее. При этом он решает поставленную задачу технически, пользуясь алгоритмами и математической статистикой.

Бизнес-аналитика интересуют коммерческие метрики компании. Опираясь на статистику, он может оценить, к примеру, эффективность рекламы, динамику продаж за определенный период. Эту информацию из прошлого бизнес-аналитик может использовать для предложений, как улучшить показатели компании. Когда данных много и нужен основанный на них прогноз, то техническую сторону задачи помогает решить Data Scientist.

Итак, результат работы дата-сайентиста – алгоритмическая модель, код, написанный на основе анализа данных. Data Scientist – это технический специалист. Результат работы бизнес-аналитика – визуализированные рекомендации, как улучшить коммерческие показатели компании. Эти советы тоже делаются на основе анализа данных, но бизнес-аналитик погружается в бизнесовую составляющую задачи.

Отличие Data Scientist от Data Engineer

Оба специалиста – технические. Они делают данные качественными и доступными, часто работают в связке, поэтому их обязанности и зону ответственности нередко путают.

Data Scientist на основе потребностей бизнеса формулирует задачи анализа данных. Он знает, какие именно данные нужны, умеет находить в них закономерности (иногда не замеченные другими) и создает прогнозные модели, в случаях, когда можно и нужно применить методы ML. Дата-сайентист контролирует качество разработанной модели и оценивает эффект ее применения.

Data Engineer собирает данные, обеспечивает их качественную структуру, чтобы Data Scientist мог тренировать и внедрять алгоритмы и модели ML. Data Engineer может обработать гигантские объемы информации и добыть из них самое важное, он знает, как наладить регулярную выгрузку и интеграцию противоречивых или неполных данных из разных источников.

Итак, задачи Data-инженера и дата-сайентиста разные:

  • Data Engineer предоставляет очищенные и структурированные данные дата-сайентисту, разрабатывает пайплайн поддержки алгоритма ML;
  • Data Scientist тестирует гипотезы в системе данных, разрабатывает алгоритмы.

Data Scientist находит в данных коммерчески важную информацию для построения стратегии компании и изучает возможность использования ML. Data Engineer – командный работник, его задача – обеспечить высокую продуктивность бизнес-аналитиков, связывать членов команды разработки ПО.

Плюсы и минусы профессии

Плюсы:

  • Профессия Data Scientist чрезвычайно востребованная в России и за рубежом, на рынке острый дефицит специалистов по данным такого уровня.
  • Высокооплачиваемая профессия.
  • Интересная работа для тех, кто увлечен IT-технологиями и математикой. Каждый проект по-своему уникален, поэтому работу не назовешь рутинной.
  • Профессия Data Scientist´а обязывает быть всесторонне развитой, интеллектуальной личностью: надо быть в курсе трендов в экономике, торговле, культуре, образовании, социологии и многих других сферах жизни и главное – уметь анализировать их и делать выводы.

Минусы:

  • Не каждый человек сможет освоить профессию Data Scientist´а, нужен особый склад ума.
  • При построении моделей могут не сработать известные методы и более 60% идей. Множество решений окажется несостоятельным, и нужно иметь большое терпение, чтобы получить удовлетворительные результаты. Data Scientist не имеет права сказать «нет» проблеме. Он должен найти способ, который поможет решить поставленную задачу.
  • Большая ответственность: ошибки дата-сайентиста дорого стоят компаниям. Например, из-за просчётов в построении скоринговой модели (оценивает кредитоспособность) банк массово выдаст займы ненадёжным клиентам, которые не вернут деньги.

Место работы

Data Scientist – незаменимый сотрудник везде, где надо делать прогнозы, совершать сделки, оценивать риски. Основные сферы применения знаний и навыков дата-сайентистов:

  • высокотехнологические отрасли производства;
  • наука;
  • IT (оптимизация поисковой выдачи, фильтр спама, систематизация новостей, автоматические переводы текстов и многое другое);
  • медицина (автоматическая диагностика болезней);
  • финансовые структуры (принятие решений о выдаче кредитов) и т. д.;
  • телекоммуникации;
  • транспорт;
  • крупные торговые сети;
  • сельское хозяйство;
  • страхование;
  • социология.

По сведениям Академии больших данных MADE Mail.ru Group и hh.ru, три основные сферы занятости Data Scientist′ов: ИТ (38 % вакансий), финансы (29 %), B2B (9 %).

Data Scientist может работать и со стартапами, и с транснациональными корпорациями. В небольших, начинающих бизнесах дата-сайентист обычно один и решает отдельные задачи. В крупных компаниях в сотрудничестве с аналитиками данных и бизнес-аналитиками, сисадминами, программистами, Data-инженерами, дизайнерами, менеджерами проектов Data Scientist занимается долгосрочными проектами.

Важные качества

  • Аналитический склад ума.
  • Трудолюбие.
  • Настойчивость.
  • Скрупулёзность, точность, внимательность.
  • Способность доводить исследования до конца, несмотря на неудачные промежуточные результаты.
  • Коммуникабельность.
  • Умение объяснить сложные вещи простыми словами.
  • Бизнес-интуиция.

Читайте также

Профессия «Big Data Analyst (аналитик больших данных)»

Профессиональные знания и навыки

  • Математика, матанализ, математическая статистика, теория вероятностей.
  • Подготовка данных к анализу с использованием библиотек.
  • Английский язык.
  • Языки программирования, у которых имеются компоненты для работы с большими массивами данных: SQL, Java (Hadoop), C ++ (BigARTM, Vowpel Wabbit, XGBoost), Python (Matplotlib, Numpy, Scikit, Skipy). Чаще всего дата-сайентисты пользуются SQL, Python, а для сложных вычислений – C/C++.
  • Статистические инструменты: SPSS, R, MATLAB, SAS Data Miner, Tableau и др.
  • Основательное знание отрасли, в которой работает Data Scientist (например, если это фармацевтическая отрасль, то необходимо знание основных процессов производства, компонентов лекарств).
  • Законы развития бизнеса.

Data Science – это использование научных методов в работе с большими данными для того, чтобы найти нужное решение. Data Scientist работает с данными так же, как учёный любой сферы знания. Он применяет математическую статистику, логические принципы и современные инструменты визуализации, чтобы получить результат. Он должен уметь анализировать и обобщать частные наблюдения, исключать случайности, отсеивать несущественные факты и делать верные выводы.

Коротко говоря, Data Scientist′у надо знать математику, матстатистику, один-два языка программирования, принципы машинного обучения и иметь представление о той отрасли, где всё это будет использоваться для работы с данными.

Обучение на Data Scientist´а

Data Scientist должен уметь программировать, работать со статистикой, пользоваться аналитическими методами. Всему этому учат в вузах на программах ИТ-направлений, несколько примеров:

  • «Прикладная математика и информатика» (01.03.02), профили:
    • «Прикладной анализ данных и искусственный интеллект» (НИУ ВШЭ, СПб);
    • «Анализ и принятие решений» (НИУ ВШЭ, Москва);
    • «Математические и компьютерные методы в прикладных разработках» (ВГУ, Воронеж);
    • «Прикладная математика и информатика» (такой профиль есть в более чем 80 российских вузах).
    • «Применение математических методов к решению инженерных и экономических задач» (МИЭТ, УГАТУ, ВГУ, ДГТУ, ИжГТУ им. Калашникова, ОГУ);
    • «Анализ данных» (МТУСИ, РТУ МИРЭА);
    • «Математическое моделирование» (АлтГПУ, КнАГУ и др.).
    • «Аналитика и управление данными» (РЭУ им. Плеханова).

    С бэкграундом разработчика легко за несколько месяцев перейти в дата-сайентисты. Профессионалам из других сфер будет сложнее, но зато у них есть важное конкурентное преимущество – глубокое понимание своей предметной области.

    Как и в любой профессии, для Data Scientist´а важно самообразование. Для самостоятельной прокачки знаний и скиллов будут полезны:

    • Machine Learning 101 – канал ML Youtube;
    • YouTube-курс машинного обучения от «ШАД» Яндекса.
    • курсы Udacity;
    • курсы Dataquest, на которых можно стать настоящим профи в Data Science;
    • 6-шаговые курсы Datacamp;
    • обучающие видео O’Reilly;
    • скринкасты для начинающих и продвинутых Data Origami;
    • ежеквартальная конференция специалистов Moskow Data Scients Meetup;
    • соревнования по анализу данных Kaggle.сom.

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *