Что такое Data Science? Разбираемся вместе с экспертом Гринатома
Умение работать с технологиями Big Data – редкий и ценный навык, открывающий перед вами перспективу стать супервостребованным и высокооплачиваемым специалистом.

О том, как приобщиться к этой профессии и как Data Science применяется в Гринатоме, рассказывает эксперт отдела исследований и разработки, заместитель главного эксперта ГК Росатом по развитию компетенции «Машинное обучение и большие данные» — Дмитрий Куликов.
02.11.2021 / 14:46:56
Data Science

Что такое Data Science или машинное обучение?

Data Science, или наука о данных — это сфера знаний, направленная в широком смысле на различного рода работу с данными.
К настоящему времени человечество (прежде всего бизнес и государственные органы), накопили и продолжают собирать огромные массивы данных — как в структурированном виде (например, в виде таблиц), так и в неструктурированном (это изображения, видео, аудио, речь).

Data Science — это не обособленная от других сфер область науки, которая существует сама по себе. Она лежит на пересечении математики и Computer Science. Наука о данных используется для прогнозирования погоды, загруженности дорог, спроса на товары в магазинах.
С её помощью в банках в автоматическом режиме выдают решения о предоставлении кредита, а онлайн-сервисы могут порекомендовать товар, книгу, фильм, музыку. Машинное обучение — прежде всего инструмент, который применяют специалисты по работе с данными в работе. Алгоритмы машинного обучения самостоятельно находят в них сложные закономерности и учатся предсказывать ответ.





Чем занимаются Data Science-специалисты?

Специалист по работе с данными (часто можно услышать название датасаентист) строит на основе данных математические модели, которые помогают принимать взвешенные решения в бизнесе, науке или повседневной жизни.

В его задачи входит обработка больших массивов данных, поиск новых взаимосвязей и скрытых закономерностей. Для этого необходимо строить математические модели, используя, например, алгоритмы машинного обучения.

Немаловажным фактором является визуализация полученных результатов и донесение их до лиц, принимающих решения (стейкхолдеров). Иногда нужные инсайты можно получить, если правильно визуализировать имеющиеся данные не прибегая при этом к сложным математическим расчётам.


Сложно ли выучить Data Science?

Бесспорно, порог входа в область Data Science выше, чем в другие сферы IT (разработку, тестирование, управление продуктами и проектами). Специалисту необходим достаточно крепкий базовый фундамент знаний из области математики и Computer Science.

Современные программы технических ВУЗов дают этот фундамент. Но это лишь начало на пути становления начинающего специалиста и превращения его в профессионала.

Важно определиться с дальнейшим направлением своего развития. Можно пойти в академическую сферу, где необходимо будет заниматься теорией и исследованиями для того, чтобы, например, придумывать новые алгоритмы машинного обучения. А можно пойти в индустрию и решать уже прикладные задачи для бизнеса, государственных структур и т.д. Какой бы путь развития не выбрали, он потребует от вас большой самоотдачи и готовности учиться новому.

Что такое Data Science? Разбираемся вместе с экспертом, изображение №2

Какие навыки необходимы?

Специалисту по анализу данных необходимы базовые знания в ряде областей математики — линейной алгебре, математической статистике, теории вероятностей и дискретной математике. Крайне важны начальные навыки в программировании.

Как правило, в Data Science используют языки программирования R и Python. И если R, вышедший из академической среды в основном продолжает использоваться в университетах, то Python — это лидер в решении прикладных задач. Помимо Python, часто требуется знание SQL — языка запросов для работы с базами данных. Это что касается так называемых hard skills. Если касаться soft skills, то специалисту по работе с данными они не менее важны. Важно умение общаться с заказчиками и коллегами, умение доносить полученные результаты и получать обратную связь.

Отдельно хочу отметить навыки саморазвития. Сфера стремительно развивается и в ней постоянно происходят изменения — появляются новые подходы, алгоритмы, инструменты, которые нужно изучать и пробовать, чтобы оставаться на гребне этой технологической волны. Поэтому можно сказать, что наука о данных — это область для самых любознательных.

Заниматься Data Science так же трудно, как заниматься наукой в целом. В этой профессии нужно уметь строить гипотезы, ставить вопросы и находить ответы на них. Само слово scientist подталкивает к выводу, что такой специалист должен, прежде всего, быть исследователем, человеком с аналитическим складом ума, способный делать обоснованные выводы из огромных массивов информации в достаточно сжатые строки. Скрупулезный, внимательный, точный — чаще всего он одновременно и программист, и математик.

Что такое Data Science? Разбираемся вместе с экспертом, изображение №3



Как машинное обучение применяется в Гринатоме?

Около 80% процентов задач у нас связано с обработкой естественного языка (NLP — Natural Language Proccessing). Это отдельное направление, где современные методы глубокого машинного обучения сейчас дают превосходные результаты, практически недостижимые еще 5-6 лет назад. К задачам обработки текста, например, относятся классификация обращений, поиск похожих по смыслу, выделение из сообщений именованных сущностей — фамилии и имена персон, названия организаций, адреса и т.д.

Кроме задач обработки текста мы занимаемся прикладными исследованиями в области компьютерного зрения, а также применения голосовых технологий (задачи распознавания речи в текст и обратная задача — синтез речи). В планах отдела — консолидация накопленной экспертизы и вывод на рынок целого семейства программных решений, которые будут встраиваться в другие цифровые продукты как самого Гринатома, так и других организаций Госкорпорации.