3. Обучение модели
Теперь‚ когда я уже подготовил данные‚ настало время приступить к обучению модели линейной регрессии. Это очень важный шаг‚ который поможет мне предсказать значения целевой переменной на основе имеющихся признаков.3.1 Разделение данных на признаки и целевую переменную
Первым делом мне необходимо разделить обучающие и тестовые данные на признаки и целевую переменную. В моем случае‚ в качестве целевой переменной я буду использовать столбец ″median_house_value″.Для этого я воспользуюсь следующим кодом⁚
python
X data.drop(″median_house_value″‚ axis1) # признаки
y data[″median_house_value″] # целевая переменная
Здесь я использую функцию ″drop″ для удаления столбца ″median_house_value″ из исходных данных и сохранения всех остальных признаков в переменную X. Затем я сохраняю столбец ″median_house_value″ в переменную y.3.2 Обучение модели
Следующий шаг ⎻ создание объекта модели линейной регрессии и обучение его на обучающих данных. Для этого я воспользуюсь библиотекой scikit-learn⁚
python
from sklearn.linear_model import LinearRegression
model LinearRegression # создание объекта модели
model.fit(X_train‚ y_train) # обучение модели
Здесь я импортирую класс LinearRegression из библиотеки scikit-learn и создаю объект модели с помощью конструктора LinearRegression. Затем я использовал метод fit‚ чтобы обучить модель на обучающих данных;4. Оценка модели
Наконец‚ мне остается только оценить модель на тестовых данных. Для этого я воспользуюсь следующим кодом⁚
python
y_pred model.predict(X_test) # предсказание целевой переменной
from sklearn.metrics import mean_squared_error
mse mean_squared_error(y_test‚ y_pred) # вычисление среднеквадратичной ошибки
Здесь я использую метод predict для предсказания целевой переменной на тестовых данных. Затем‚ для оценки модели‚ я вычисляю среднеквадратичную ошибку с помощью функции mean_squared_error из библиотеки scikit-learn.
Таким образом‚ я успешно выполнил обучение модели линейной регрессии на подготовленных данных и оценил ее на тестовых данных. Результатом оценки является значение среднеквадратичной ошибки‚ которое позволяет мне понять‚ насколько хорошо модель работает на новых данных.