1. Загрузка библиотек
Для начала работы необходимо загрузить несколько библиотек, которые будут использованы в нашем анализе. Это NumPy, Pandas, Matplotlib и Scikit-learn. Чтобы загрузить эти библиотеки, необходимо выполнить следующий код⁚
python
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
from sklearn import datasets
2. Загрузка данных
2.1 Загрузка датасета Ирисов Фишера из библиотеки Scikit-learn.
Для нашего анализа мы будем использовать классический датасет Ирисов Фишера, который доступен в библиотеке Scikit-learn. Он содержит информацию о трех видах ирисов⁚ Setosa, Versicolor и Virginica. Для загрузки датасета используйте следующий код⁚
python
iris datasets.load_iris
2.2 Преобразование датасета в pandas DataFrame для удобства работы с данными.
Для удобства работы с данными преобразуем датасет Ирисов Фишера в pandas DataFrame. Для этого выполните следующий код⁚
python
df pd.DataFrame(data np.c_[iris[‘data’], iris[‘target’]],
columns iris[‘feature_names’] [‘target’])
2.3 Разделение данных на обучающую и тестовую выборки.
Для обучения модели и последующей проверки ее качества необходимо разделить данные на обучающую и тестовую выборки. Для этого выполните следующий код⁚
python
from sklearn.model_selection import train_test_split
X df.drop(‘target’, axis1)
y df[‘target’]
X_train, X_test, y_train, y_test train_test_split(X, y, test_size0.2, random_state42)
3. Анализ данных
Чтобы посмотреть на данные из нашего датасета, выведем первые несколько строк. Для этого выполните следующий код⁚
python
print(df.head)
Чтобы получить общую информацию о нашем датасете, выполните следующий код⁚
python
print(df.info)
3.3 Использование метода describe.
Метод describe позволяет получить статистическую информацию о числовых признаках датасета. Для его использования выполните следующий код⁚
python
print(df.describe)
3.4 Визуализация данных с помощью диаграмм рассеяния.
Для визуализации данных с помощью диаграмм рассеяния используйте следующий код⁚
python
plt.scatter(df[‘sepal length (cm)’], df[‘sepal width (cm)’], cdf[‘target’])
plt.xlabel(‘sepal length (cm)’)
plt.ylabel(‘sepal width (cm)’)
plt.show
В данной статье я рассказал о том, как загрузить необходимые библиотеки, загрузить датасет Ирисов Фишера, преобразовать его в pandas DataFrame, разделить данные на обучающую и тестовую выборки, а также провести анализ данных с использованием описанных методов и визуализировать данные с помощью диаграмм рассеяния.