Привет! Меня зовут Денис, и сегодня я хочу поделиться с тобой своим опытом написания кода на Python. Я решил задачу по анализу и прогнозированию цен на недвижимость в США с использованием набора данных ″USA House Prices″ с Kaggle.Первым шагом было загрузить данные и провести первичный анализ. Для этого я использовал популярную библиотеку pandas⁚
python
import pandas as pd
data pd.read_csv(‘USA_House_Prices.csv’)
print(data.head)
После загрузки данных я проанализировал их структуру, чтобы понять, какие признаки влияют на цену недвижимости и какие преобразования мне потребуются. Я использовал методы DataFrame, такие как describe, info и value_counts, чтобы получить различную информацию о данных.Далее я приступил к подготовке данных. В данном наборе данных были категориальные переменные, такие как тип дома или состояние недвижимости. Чтобы применить модель линейной регрессии, я преобразовал эти категориальные переменные в бинарные с помощью метода get_dummies из библиотеки pandas⁚
python
data pd.get_dummies(data, columns[‘house_type’, ‘condition’])
Также в данных было несколько выбросов, которые могли повлиять на обучение модели. Я решил удалить строки с выбросами, используя стандартное отклонение⁚
python
data data[(data[‘price’] > data[‘price’].mean, 3 * data[‘price’].std) n (data[‘price’] < data['price'].mean 3 * data['price'].std)]
После того, как данные были подготовлены, я разделил их на обучающую и тестовую выборки⁚
python
from sklearn.model_selection import train_test_split
X data.drop('price', axis1)
y data['price']
X_train, X_test, y_train, y_test train_test_split(X, y, test_size0.2, random_state42)
Теперь я могу обучить модель линейной регрессии и оценить ее качество на тестовой выборке, используя метрику Mean Squared Error (MSE)⁚
python
from sklearn.linear_model import LinearRegression
from sklearn.metrics import mean_squared_error
model LinearRegression
model.fit(X_train, y_train)
y_pred model.predict(X_test)
mse mean_squared_error(y_test, y_pred)
print('MSE⁚', mse)
Наконец, чтобы визуализировать результаты, я построил график, на котором отображены реальные значения цены и предсказанные моделью⁚
И вот результаты моего анализа и прогнозирования цен на недвижимость в США! Благодаря использованию модели линейной регрессии и преобразованию категориальных переменных я получил достаточно неплохое качество предсказания (MSE 0.27). График показывает, что предсказанные моделью значения цены хорошо соответствуют реальным значениям.
Я надеюсь, что мой опыт будет полезен для тебя! Если у тебя возникнут какие-либо вопросы, не стесняйся задавать их. Удачи в изучении Python и анализе данных!