Отдельным файлом текст отчёта, отдельно в архиве исходники.
Индивидуальное задание «SimpleAnalysis».
Язык программирования – Python. Среда разработки – PyCharm.
Библиотеки: Math, Matplotlib, Pandas, Numpy
Исходные данные:
Получить Dataset (данные).
Сгенерировать численные данные с помощью генератора случайных чисел. Числа – целые, диапазон: от -10000 до 10000; количество чисел – 1000. Сформировать объект Series.
Рассчитать стандартные числовые характеристики для набора данных Series
- определить минимальное значений
- определить количество повторяющихся значений
- определить максимальное значение
- определить сумму чисел
- определить среднеквадратическое отклонение
Результирующие данные вывести в консоль с пояснениями. При выполнении данного задания можно использовать все стандартные функции Python.
Визуализировать данные с помощью стандартных библиотек по заданным критериям
- построить линейный график
- построить гистограмму (прямоугольную), округлив значения набора данных до сотен. Округление выполнить по математическому правилу.
Сформировать Dataframe из данных Series и добавить к этим данным следующие столбцы
- столбец, содержащий отсортированные значения исходного Series по возрастанию
- столбец, содержащий отсортированные значения исходного Series по убыванию
Визуализировать данные, полученные в результате промежуточного анализа (вычислений)
- на одном plt построить два линейных графика: отсортированных значений по возрастанию и убыванию
ВВЕДЕНИЕ………………………………………………………………………………. 3
1 ВЫБОР ПЛАТФОРМЫ И ДАННЫХ……………………………………………. 5
1.1 Выбор платформы для разработки и необходимых библиотек……………… 5
1.1.1 Обоснование выбора платформы интерпретатора языка Python…………. 5
1.1.2 Выбор библиотек для анализа данных……………………………………... 5
1.2 Получение данных………………………………………………………………… 6
1.2.1 Предварительный анализ данных…………………………………………... 6
1.2.2 Выбор формата хранения данных………………………………………….. 6
1.2.3 Очистка данных от цифрового мусора…………………………………….. 7
1.3 Организация работы……………………………………………………………… 7
1.3.1 Необходимый набор участников команды для работы.…………………... 7
1.3.2 Распределение времени…………………………………………….……….. 8
1.3.3 Организация рабочего места…………………………………………….….. 8
1.4 Выводы по разделу……………………………………………………………….. 8
2 КОЛИЧЕСТВЕННЫЙ АНАЛИЗ ДАННЫХ……………………………………... 18
2.1 Получение данных Dataset (данные)……………………………………………. 18
2.2 Расчет стандартных числовых характеристик для набора данных Series……. 18
2.3 Выводы по разделу………………………………………………………………. 19
3 ВИЗУАЛИЗАЦИЯ РЕЗУЛЬТАТОВ КОЛИЧЕСТВЕННОГО АНАЛИЗА ДАННЫХ………………………………………………………………………………... 25
3.1 Визуализация наборов данных с помощью стандартных библиотек по заданным критериям………………………………………………………………… 25
3.2 Формирование Dataframe из данных Series и добавление столбцов…………. 27
3.3 Визуализация данных полученных в результате промежуточного анализа…. 27
3.4 Выводы по разделу………………………………………………………………. 28
ЗАКЛЮЧЕНИЕ……………………………………………………………………… 34
СПИСОК ИСПОЛЬЗОВАННОЙ ЛИТЕРАТУРЫ………………………………. 35
1. Лутц М. Изучаем Python, 4-е издание. – Пер. с англ. – СПб.: Символ-Плюс, 2019. – 1280 с. – ISBN 978-5-93286-159-2
2. Официальный сайт Python: [сайт] – 2022. – URL: https://www.python.org/doc/ (дата обращения 02.11.2022)
3. Официальный сайт с документацией Numpy: [сайт] – 2022. – URL: https://numpy.org/doc/stable (дата обращения: 02.11.2022)
4. Официальный сайт с документацией Pandas: [сайт] – 2022. – URL: https://pandas.pydata.org/docs/ (дата обращения: 03.11.2022)
5. Официальный сайт с документацией Matplotlib: [сайт] – 2022. – URL: https://matplotlib.org (дата обращения: 04.11.2022)
6. Джоэл Г. Data Science Наука о данных с нуля. – Пер с англ. – БХВ-Петербург, 2020. – 416 с. – ISBN 978-5-9775-6731-2