R язык программирования для начинающих: Руководство по изучению языка R и его использование в Data Science
Содержание
Руководство по изучению языка R и его использование в Data Science
Подборка ресурсов для изучения языка программирования R, которая поможет начать изучение «с нуля» и пройти этот путь быстро и эффективно.
Для людей, столкнувшихся лицом к лицу с языком программирования R, существует одна общая проблема — это отсутствие структурированного плана изучения. Они не знают, с чего начать, куда двигаться, какой путь выбрать. А огромное количество информации по этой теме в Сети зачастую лишь сбивает с толку.
После перебирания бесконечных ресурсов и архивов получилось данное всеобъемлющее пособие по языку программирования R, которое поможет начать изучение «с нуля» и пройти этот путь быстро и эффективно.
Прежде, чем отправиться в путь, ответьте для себя на вопрос: почему R? Как он сможет помочь? Посмотрите вот этот 90-секундный ролик от Revolution Analytics, чтобы понять, чем может быть полезен язык программирования R. К слову, Revolution Analytics не так давно была приобретена Microsoft.
Теперь, когда вы решились, самое время настроить машину. Первое, что нужно сделать — это загрузить базовую версию языка программирования R и инструкцию по ее установке с CRAN — Comprehensive R Archive Network (Всеобъемлющая архивная сеть R).
Затем можно поставить различные дополнительные библиотеки. Существует over9000 разных дополнений для языка программирования R – и это может сбить с толку. Посему, мы будем руководствоваться лишь установкой базовых пакетов, для начала. По этой ссылке можно посмотреть библиотеки из CRAN Views. Собственно, там можно выбрать те подтипы библиотек, которые вам интересны.
Как подключать библиотеки, смотрите здесь;
Некоторые важные библиотеки, о которых стоит знать, смотрите тут;
Необходимо установить все три нижеследующих GUI вместе с зависимыми пакетами:
- Rattle – для анализа данных (Ссылка) или
install.packages(“rattle”, dep=c(“Suggests”))
- R Commander — для базовой статистики (Ссылка) или
install. packages(“Rcmdr”)
- Deducer (вместе с JGR) для визуализации данных (Ссылка)
Также нужно установить RStudio. Работать на языке программирования R в ней значительно быстрее и проще, так как RStudio позволяет писать множественные строки кода, подключать и поддерживать библиотеки и вообще более продуктивно обустроить свою рабочую среду.
Задание:
- Установить R и RStudio;
- Установить библиотеки Rcmdr, rattle и Deducer. Установить все предложенные или сопутствующие пакеты, включая GUI;
- Загрузить эти библиотеки, используя соответствующие команды, поочередно открыть GUI.
Чтобы начать, необходимо постичь основы языка программирования R, его библиотек и структур данных. Начать изучение лучше всего с Datacamp. Особое внимание обратите на бесплатный курс введения в язык программирования R (вот тут можно почитать). К концу этого курса вы сможете писать небольшие скрипты на R, а также понять принципы анализа данных. В качестве альтернативы можно пройти «Школу программирования на R» вот здесь.
Если вы хотите изучать R офлайн в свободное время, можно использовать интерактивный пакет со Swirlstats.
Особое внимание следует уделить изучению read.table, структур данных, таблиц, сводок, описаний, загрузки и установки библиотек, визуализации данных с использованием команд.
Задание:
- Подписаться на ежедневную рассылку, относительно проекта R здесь;
- Создать аккаунт на Github;
- Учиться разбираться с установкой проблемных библиотек, используя Google для справки;
- Установить swirl-пакеты (см. выше) и изучать программирование на R;
- Черпать знания с Datacamp.
Дополнительные источники:
Если интерактивное программирование — не ваш стиль, можно смотреть двухминутные туториалы по языку программирования R тут. Данный видеокурс частично затрагивает поднятые здесь вопросы. Также можно ознакомиться с этим постом, чтобы получить более ясное представление о функциях языка R.
Вам придется много работать для чистки данных, особенно если доведется обрабатывать текстовую информацию. Самое правильное, что можно сделать для начала – это пройти соответствующие упражнения. О соединении с базами данных можно узнать с помощью библиотеки RODBC, а о написании sql-запросов к структурам данных через sqldf.
Задание:
- Почитайте о разделенном, прикладном и комбинированном подходах к анализу данных в Journal of Statisical Software;
- Попытайтесь изучить подход «аккуратных данных» для проведения анализа;
- Почитайте о работе языка программирования R с реляционными базами данных в статье на decisionstats.com;
- Сделайте несколько упражнений на понимание качества данных;
- Не сидите только на анализе цифр. Разберите с помощью R спортивную аналитику на примере крикета.
Если вам нужно больше практики, на Datacamp можно оформить подписку на все обучающие программы за $25/месяц. Но начать стоит с введения в plyr вот здесь.
Вот здесь и начинается самая веселая часть! Ниже – рекомендации к прочтению и выполнению. Практику начнем с некоторых общих операций.
- Основательно изучите учебное пособие по data.table. Распечатайте и заучите шпаргалку по data.table;
- Затем можно взглянуть на туториал по dplyr;
- Чтобы понять основы анализа текста, сделайте облако слов на языке программирования R, потом пройдите следующий курс по неструктурированным данным: часть раз, часть два;
- Сделайте анализ настроений, используя данные Твиттера, как, например, здесь и здесь;
- По оптимизации с помощью R почитайте это и это.
Дополнительные источники:
- Если вам нужна книга по бизнес-аналитике на языке программирования R, то вот — «R for Business Analytics» от Аджая Ори;
- Если нужна книга для изучения R по-быстрому, то ее можно найти тут.
- Почитайте об Эдварде Тафте и его мыслях о том, как стоит (и не стоит) делать визуализацию данных здесь.
- Также, почитайте о подводных камнях при разработке дашбордов в материале Стивена Фью.
- Освойте грамотное построение графиков и практические способы их построения на R. По ссылке доступен курс по ggplot2 от доктора Хардли Уикхэма, создателя ggplot2 — одной из самых лучших библиотек для R на сегодняшний день.
- Если вы заинтересованы в пространственной визуализации данных, не проходите мимо библиотеки ggmap.
- Если интересуетесь анимацией данных, взгляните на эти примеры. Взять библиотеку для анимации можно здесь.
- С помощью Slidify можно визуализировать данные в виде слайдов на HTML5.
Сейчас мы подошли к наиболее ценным для аналитика навыкам – глубокому анализу и машинному обучению. Исчерпывающий набор информации о глубоком анализе с помощью R можно найти на RDM. А также свободно распространяемую и простую для понимания книгу по этой теме за авторством Грэхэма Уильямса можно найти здесь.
Обзор таких алгоритмов, как регрессия, дерева решений, ансамбли моделирования и кластеризация, а также опции для машинного обучения, доступные в R, можно найти по этой ссылке.
Дополнительные источники:
- «Data Mining with Rattle and R» — хорошая книга по глубокому анализу данных.
- Почитать о прогнозировании временных рядов на языке программирования R можно тут.
- Кое-что по машинному обучению в R есть здесь, а также здесь можно записаться на бесплатные курсы.
Поздравления! Вы добились своего. Теперь у вас есть все, что нужно, осталось оттачивать технические навыки.
- Итак, теперь необходимо практиковаться, и для этого как нельзя лучше подойдут соревнования с коллегами-аналитиками на Kaggle. Начать этот практический курс можно отсюда.
- Оставаться на связи с коллегами по R-цеху можно подписавшись на R-bloggers.
- Для большего социального взаимодействия можно использовать в Твиттере хештег # rstats.
- Если на чем-то застряли, этот сайт поможет быстро разобраться и даст нужное количество информации.
Теперь, когда вы знаете об анализе данных с помощью R все, что нужно, настало время получить некоторые дополнительные задания. Есть вероятность, что кое-что из этого вы уже видели, но, все же, ознакомьтесь с этими материалами тоже.
- Занятие на тему совместного использования R и MongoDB есть тут.
- Еще один хороший материал по анализу Больших Данных с помощью R в NoSQL-эру.
- К слову, используя Shiny из RStudio, можно сделать интерактивное веб-приложение.
- Гайд для интересующихся в изучении синтаксиса R и Python здесь.
P.S. В случае, если вам приходится много работать с большими данными, взгляните на библиотеку RevoScaleR от Revolution Analytics. Это коммерческая библиотека, но она бесплатна для академического пользования. Пример проекта приведен здесь
Первоисточник
Перевел Сергей Ворничес
Язык программирования R для начинающих
Поговорим о самом востребованным языке для обработки информации.
Что такое R?
R – это язык программирования с открытым исходным кодом, использующийся для обработки и анализа данных. R включает в себя не только язык с уникальным синтаксисом и возможностями, но и соответствующий фреймворк, а также среду запуска программ. R и его компоненты часто используются в науке, например, для создания приложений на базе машинного обучения. Язык популярен и востребован на позициях разработчиков искусственного интеллекта, а также дата-сайентистов.
R сильно отличается от конвенциальных языков в духе C++ и Java. Отличия касаются не только синтаксиса и возможностей в целом, но и богатого набора дополнительных инструментов для R, позволяющих в удобном формате визуализировать данные и более глубоко их проанализировать.
Код, написанный на R, можно запустить в любой ОС, включая Windows.
R был разработан тандемом разработчиков Россом Ихакой и Робертом Гентлманом в 1990-х годах.
Комьюнити теперь в Телеграм
Подпишитесь и будьте в курсе последних IT-новостей
Подписаться
10 причин изучать R
Теперь мы знаем, что такое R, но зачем он нам нужен? В Data Science и смежных направлениях уже есть Python и Java, зачем кто-то еще?
R уже давно является популярнейшим языком в своей сфере и считается золотым стандартном в аналитике, но это не единственная причина его любить.
Ключевые преимущества R в Data Science
Если вы выберите R в качестве языка для обработки и анализа данных, то получите ряд преимуществ:
-
Код, написанный на R, можно запускать без компиляции. Здесь используется интерпретатор, в реальном времени показывающий, как работает программа, и оповещающий об ошибках уже после включения ПО.
-
Язык R исповедует векторный подход к программированию, что делает его эффективнее и производительнее большинства конкурентов.
-
Этот язык специально создавался для статистической обработки данных, поэтому он широко распространен и востребован среди статистиков, биологов, генетиков и других деятелей науки.
R помогает бизнесу расти
Современный бизнес зависит от дата-сайентистов и нуждается в грамотных аналитиках, способных корректно обрабатывать огромные массивы данных. R – это продвинутый инструмент, способный стать ключевым для команды разработчиков, отвечающих за обработку информации.
Во-первых, он идет в комплекте с набором инструментов для визуализации контента. Во-вторых, R отличается высокой скоростью работы и богатой функциональностью, что повышает эффективность работы аналитиков, а это, в свою очередь, позитивно сказывается на доходах бизнеса.
R помогает построить перспективную карьеру
Data Science – это популярное направление в IT. Рынок достаточно нагрет и пестрит вакансиями от разных компаний, разыскивающих качественных дата-сайентистов. Это высокооплачиваемая работа с отличными перспективами как для начинающих разработчиков, так и для опытных специалистов, решивших сменить сферу.
R – один из наиболее часто использующихся языков в Data Science. Если программист хочет заниматься аналитикой, то в первую очередь учит именно R.
Хотите стать перспективным разработчиком, занимающимся обработкой статистических данных? Или же хотите стать профессиональным дата-сайентистом? Начинайте учить R, пока рынок еще не перегрет и есть шанс получить хорошую работу.
R – Open Source-проект
Проекты с открытым кодом поддерживаются не коммерческой организацией, а сообществом. Поэтому R может использовать любой желающий на безвозмездной основе. И это дает преимущество для использования R в бизнесе.
Открытый исходный код можно использовать на свое усмотрение. Для R используется лицензия GNU, а это значит, что можно редактировать язык как вздумается, постепенно адаптируя его под нужды конкретной компании и превращая в идеальный инструмент для обработки данных.
Этот язык популярен
Популярность обоснована функциональностью и эффективностью языка, поэтому его любят не только разработчики, но и работодатели. Такая популярность идет на пользу, потому что новичкам в сфере Data Science не составит труда найти себе первую работу при наличии должных навыков в R.
И хотя длительное время корпорации не понимали собственной нужды в R, сейчас они, словно ужаленные, ищут себе подходящих спецов.
Язык применяется в крупнейших организациях планеты, включая таких мастодонтов, как Facebook и Twitter. Обе компании применяют R для обработки и визуализации огромных массивов данных.
R предлагает отличные средства визуализации данных
К R можно подключить внушительную коллекцию библиотек, расширяющих его возможности.
Есть расширения, добавляющие поддержку команд для создания моделей машинного обучения. Есть плагины, помогающие собирать данные в области биологии и в других смежных направлениях.
Также R может похвастаться большим количеством библиотек, помогающих красиво визуализировать полученные данные в виде схем, графиков, таблиц и т.п. Среди самых популярных выделяют ggplot2 и plotly. Отчасти благодаря им R стал интересен аналитикам и программистам.
R помогает в разработке веб-приложений
Предназначение R в другом, но, приноровившись, можно превратить этот язык во фреймворк для создания симпатичных веб-сайтов. Для этого есть отдельная библиотека R Shiny. С помощью нее можно генерировать на веб-страницах интерактивные дашборды, графики и таблицы. Причем делать это можно, не покидая IDE, в которой ведется разработка приложения/сайта.
R можно использовать в тандеме с любым другим языком для веб-разработки, с любым популярным фреймворком. Можно подключить R-элементы к существующему сайту, встраивая отдельные куски статистики в разных участках интерфейса.
R поддерживается большим количеством разработчиков по всему миру
Это уже упоминалось ранее, но одна из ключевых составляющих успеха R – огромное сообщество неравнодушных разработчиков. Это дает сразу три больших плюса:
-
За R стоит опытная команда, заинтересованная в его развитии и не заинтересованная в финансовой успешности языка.
-
Язык поддерживают крупные компании, также заинтересованные в развитии языка, что позволяет R оставаться на плаву.
-
Большое сообщество гарантирует наличие в сети исчерпывающей информации по языку: гайдов, подсказок, инструкций. Всегда есть, к кому обратиться за консультацией, чтобы решить какую-то проблему или изучить новую технику обработки и визуализации данных.
R может похвастаться лаврами языка №1 в Data Science
R – это золотой стандарт. Если мы говорим о сборе информации и обработке статистических данных в IT, то мы говорим про R. И хотя отнять звание лучшего всегда пытается Python, узконаправленность R дает ему преимущество.
Ну и нельзя забывать, что R появился еще до того, как активно начал применяться термин Data Science.
R применяют в различных сферах бизнеса
Если вы учите R – это не значит, что вам придется работать в научном центре или посвящать себя социологии. Дата-сайентисты нужны в различных направлениях бизнеса. Почти в любой крупной компании требуется программист со знаниями R.
Вы можете найти соответствующие вакансии у компаний, занимающихся финансами, банкингом, медициной, строительством и десятками других несвязанных направлений. В частности, язык применяется для анализа рисков в финтех-организациях. Также R задействуется в ходе оптимизации рабочих процессов в различных индустриальных корпорациях.
Чем R отличается от Python?
Ключевое отличие лежит в предназначении обоих языков. Да, Python часто применяется в обработке статистических данных, в сборе и анализе данных. Он также популярен среди математиков, биологов и предпринимателей всех сортов. При этом Python является языком общего назначения. Он поддерживает больше форматов данных, позволяет писать более привычные функции и т.п.
R же направлен на решение конкретных задач. Этот язык менее функционален и не позволяет создавать полноценные программы, как Python. Но он более производителен и эффективен именно в решении задач анализа и статистики.
R подойдет тем, кто планирует заниматься конкретной работой в области обработки больших массивов данных. Python больше подойдет тем, кто хочет стать мультипрофильным разработчиком.
Где и как учить R?
Найти курсы по R бывает сложно, потому что он почти всегда является частью дисциплины Data Science. Ищите профессию «Аналитик данных» в любимых онлайн-школах и записывайтесь.
Из хороших школ могу посоветовать Нетологию, Хекслет и Яндекс.Практикум. Также отличные курсы можно найти на Coursera и Udemy, причем на первом бесплатно, а на втором – с большими скидками.
Зная этот язык, можно рассчитывать на трудоустройство в крупных организациях, получать большие деньги и обзавестись плацдармом для дальнейшего развития и самосовершенствования в IT.
R Учебное пособие для начинающих: изучение языка программирования R
Дэниел Джонсон
часов Обновлено
Зачем изучать R?
R — это язык программирования, который широко используется исследователями данных и крупными корпорациями, такими как Google, Airbnb, Facebook и т. д., для анализа данных. Это полный курс по R для начинающих, который охватывает основы для продвижения по таким темам, как алгоритм машинного обучения, линейная регрессия, временные ряды, статистический вывод и т. д.
Что я должен знать?
Базовые знания статистической концепции приветствуются.
R Программа обучения программированию
Введение
👉 Урок 1 | Что такое язык программирования R? — Введение и основы R |
👉 Урок 2 | Как загрузить и установить Rstudio — Anaconda на Windows/Mac |
👉 Урок 3 | Арифметические и логические операторы — Типы данных R с примером |
👉 Урок 4 | R Учебное пособие по матрице — Создание, печать, добавление столбца, срез |
👉 Урок 5 | Коэффициент в R — Категориальные переменные и непрерывные переменные |
Подготовка данных
👉 Урок 1 | R Data Frame — Как создать, добавить, выбрать и подмножество |
👉 Урок 2 | Список в R — Создание списков R, выбор элементов на примере |
👉 Урок 3 | R Сортировка фрейма данных с помощью Order() — узнайте на примере |
👉 Урок 4 | R Учебное пособие по Dplyr — Обработка данных (объединение) и очистка (распространение) |
👉 Урок 5 | Объединение кадров данных в R — Полное и частичное совпадение |
👉 Урок 6 | Функции в программировании на R — Учитесь на примере |
Программирование
👉 Урок 1 | Оператор IF, ELSE, ELSE IF в R — обучение на примере |
👉 Урок 2 | Цикл For в R — Примеры для списка и матрицы |
👉 Урок 3 | Цикл While в R — обучение на примере |
👉 Урок 4 | apply(), lapply(), sapply(), tapply() Функция в R — узнайте на примере |
👉 Урок 5 | Импорт данных в R — Чтение файлов CSV, Excel, SPSS, Stata, SAS |
👉 Урок 6 | na. omit & na.rm — Как заменить пропущенные значения (NA) в R |
👉 Урок 7 | Экспорт данных из R — Как экспортировать данные из R в CSV, Excel |
👉 Урок 8 | Корреляция в R — Pearson & Spearman с матрицей Пример |
👉 Урок 9 | R Агрегатная функция — суммирование и группировка() Пример |
👉 Урок 10 | R Select(), Filter(), Arrange(), Pipeline — Изучите пример |
Анализ данных
👉 Урок 1 | R Scatterplots — Точечная диаграмма в R с использованием ggplot2 (с примером) |
👉 Урок 2 | boxplot() в R — Как заставить BoxPlots учиться на примере |
👉 Урок 3 | Гистограмма и гистограмма в R — Учитесь на примере |
👉 Урок 4 | T-тест в R — один образец и пара (с примером) |
👉 Урок 5 | R ANOVA Tutorial — Односторонний и двусторонний (с примерами) |
Машинное обучение
👉 Урок 1 | Регрессия и типы в R — R Простая, множественная линейная и ступенчатая регрессия |
👉 Урок 2 | Дерево решений в R — Дерево классификации и код в R с примером |
👉 Урок 3 | R Random Forest Tutorial — Обучение на примере |
👉 Урок 4 | GLM в R — Обобщенная линейная модель с примером |
👉 Урок 5 | Кластеризация K-средних в R — Учитесь на примере |
Должен знать!
👉 Урок 1 | R против Python — в чем разница? |
👉 Урок 2 | SAS и R — в чем разница? |
👉 Урок 3 | Гистограмма и гистограмма — Должны знать отличия |
👉 Урок 4 | R Вопросы для интервью по программированию — 18 лучших вопросов для интервью по программированию R |
👉 Урок 5 | Книги по программированию R — 17 лучших книг по программированию R |
👉 Урок 6 | Учебник по программированию на R в формате PDF — Загрузить Учебник на R в формате PDF для начинающих |
Что такое язык программирования R? Введение и основы R
Что такое R Software?
R — это язык программирования и бесплатное программное обеспечение, разработанное Россом Ихакой и Робертом Джентльменом в 1993 году. R обладает обширным каталогом статистических и графических методов. Он включает в себя алгоритмы машинного обучения, линейную регрессию, временные ряды, статистические выводы и многое другое. Большинство библиотек R написаны на R, но для тяжелых вычислительных задач предпочтительны коды C, C++ и Fortran.
R используется не только учеными, многие крупные компании также используют язык программирования R, включая Uber, Google, Airbnb, Facebook и так далее.
Анализ данных с помощью R выполняется в несколько этапов; программирование, преобразование, обнаружение, моделирование и передача результатов
- Программа : R — это понятный и доступный инструмент программирования
- Преобразование : R состоит из набора библиотек, разработанных специально для обработки данных
- Откройте для себя : исследуйте данные, уточняйте свою гипотезу и анализируйте их
- Модель : R предоставляет широкий набор инструментов для получения правильной модели для ваших данных
- Общайтесь : интегрируйте коды, графики и выходные данные в отчет с помощью R Markdown или создавайте приложения Shiny, чтобы поделиться ими со всем миром
В этом вводном руководстве вы узнаете R
- Для чего используется R?
- R от Промышленности
- Р-пакет
- Связь с R
- Зачем использовать R?
- Стоит ли выбирать R?
- Является ли R сложным?
Для чего используется R?
- Статистический вывод
- Анализ данных
- Алгоритм машинного обучения
R по отраслям
Если мы разберем использование R по отраслям, то увидим, что ученые стоят на первом месте. R — это язык для статистики. R — это первый выбор в отрасли здравоохранения, за которым следуют правительство и консалтинг.
Пакет R
Основными областями применения R были и всегда будут статистика, визуализация и машинное обучение. На рисунке ниже показано, какой пакет R вызвал наибольшее количество вопросов в Stack Overflow. В топ-10 большинство из них связаны с рабочим процессом специалиста по данным: подготовка данных и передача результатов.
Все библиотеки R, почти 12к, хранятся в CRAN. CRAN является бесплатным и открытым исходным кодом. Вы можете загрузить и использовать многочисленные библиотеки для машинного обучения или анализа временных рядов.
Общайтесь с R
У R есть несколько способов представить и поделиться работой, либо через документ с уценкой, либо через блестящее приложение. Все может быть размещено в Rpub, GitHub или на веб-сайте компании.
Ниже приведен пример презентации, размещенной на Rpub
Rstudio принимает уценку для написания документа. Вы можете экспортировать документы в различных форматах:
- Документ:
- HTML
- PDF/латекс
- Слово
- Презентация
- HTML
- PDF-проектор
В Rstudio есть отличный инструмент для простого создания приложения. Ниже приведен пример приложения с данными Всемирного банка.
Зачем использовать R?
Наука о данных определяет способ ведения бизнеса компаниями. Без сомнения, если держаться подальше от искусственного интеллекта и машин, компания потерпит неудачу. Большой вопрос заключается в том, какой инструмент/язык следует использовать?
На рынке доступно множество инструментов для анализа данных. Изучение нового языка требует некоторого времени. На рисунке ниже показана кривая обучения по сравнению с бизнес-возможностями, которые предлагает язык. Отрицательное отношение подразумевает, что бесплатного обеда не бывает. Если вы хотите лучше понять данные, вам нужно потратить некоторое время на изучение соответствующего инструмента, которым является R.
В левом верхнем углу графика вы можете увидеть Excel и PowerBI. Эти два инструмента просты в освоении, но не предлагают выдающихся бизнес-возможностей, особенно с точки зрения моделирования. Посередине вы можете увидеть Python и SAS. SAS — это специальный инструмент для проведения статистического анализа для бизнеса, но он платный. SAS — это программное обеспечение «нажми и работай». Однако Python — это язык с монотонной кривой обучения. Python — фантастический инструмент для развертывания машинного обучения и искусственного интеллекта, но ему не хватает коммуникационных функций. С идентичной кривой обучения R является хорошим компромиссом между реализацией и анализом данных.
Говоря о визуализации данных (DataViz), вы наверняка слышали о Tableau. Tableau, без сомнения, отличный инструмент для обнаружения закономерностей с помощью графиков и диаграмм. Кроме того, изучение Tableau не требует много времени. Одна большая проблема с визуализацией данных заключается в том, что вы можете так и не найти шаблон или просто создать множество бесполезных диаграмм. Tableau — хороший инструмент для быстрой визуализации данных или бизнес-аналитики. Когда дело доходит до статистики и инструмента принятия решений, R больше подходит.
Stack Overflow — большое сообщество языков программирования. Если у вас есть проблемы с кодированием или вам нужно понять модель, Stack Overflow поможет вам. За год процент вопросов-просмотров для R резко увеличился по сравнению с другими языками. Эта тенденция, конечно, тесно связана с бурным развитием науки о данных, но она отражает спрос на язык R для науки о данных.
В науке о данных есть два инструмента, конкурирующих друг с другом. R и Python, вероятно, являются языками программирования, определяющими науку о данных.
Стоит ли выбирать R?
Специалист по данным может использовать два превосходных инструмента: R и Python. У вас может не хватить времени на изучение обоих, особенно если вы начнете изучать науку о данных. Изучение статистического моделирования и алгоритма гораздо важнее, чем изучение языка программирования. Язык программирования — это инструмент для вычисления и передачи вашего открытия. Самая важная задача в науке о данных — это то, как вы работаете с данными: импорт, очистка, подготовка, разработка функций, выбор функций. Это должно быть вашим основным направлением. Если вы пытаетесь изучать R и Python одновременно, не имея солидного опыта в статистике, это просто глупо. Специалисты по данным не программисты. Их работа состоит в том, чтобы понимать данные, манипулировать ими и выявлять наилучший подход. Если вы думаете о том, какой язык выучить, давайте посмотрим, какой язык вам больше всего подходит.
Основная аудитория специалистов по науке о данных — бизнес-профессионалы. В бизнесе одним из важных аспектов является общение. Есть много способов общения: отчет, веб-приложение, панель инструментов. Вам нужен инструмент, который делает все это вместе.
R сложно?
Много лет назад язык R был трудным для изучения. Язык был запутанным и не таким структурированным, как другие инструменты программирования.