The Boston Housing Dataset(보스턴 주택 가격 데이터셋)

SMALL

The Boston Housing Dataset(보스턴 주택 가격 데이터셋)

https://www.kaggle.com/code/prasadperera/the-boston-housing-dataset

 

The Boston Housing Dataset

Explore and run machine learning code with Kaggle Notebooks | Using data from Boston House Prices

www.kaggle.com

 

목표

각 열은 보스턴의 각 지역에 대한 다양한 특징을 나타내는데 이것을 기반으로 주택 가격(MEDV)을 예측하는 것

각 열에 대한 설명 

  • CRIM : 해당 지역의 범죄율.
    값이 높을수록 범죄율이 높은 지역임을 의미하며, 일반적으로 범죄율이 높은 지역은 주택 가격이 낮은 경향이 있다.
  • ZN : 25,000 평방피트 이상의 주거용 토지 비율.
    값이 높을수록 넓은 주거용 토지가 많은 지역으로, 쾌적한 주거 환경은 주택 가격에 긍정적인 영향을 미칠 수 있다.
  • INDUS : 비상업용 토지 비율.
    값이 높을수록 산업 시설이나 공장 등이 많은 지역이며, 주거 환경 선호도에 따라 주택 가격에 부정적인 영향을 미칠 수도 있다.
  • CHAS : 찰스 강에 인접한 지역인지 여부.
    1은 강에 인접한 지역, 0은 인접하지 않은 지역을 의미한다.
    강변 지역은 아름다운 경관과 쾌적한 환경으로 인해 주택 가격에 긍정적인 영향을 미치는 경우가 많다.
  • NOX : 일산화질소 농도.
    값이 높을수록 대기 오염이 심한 지역으로, 건강에 대한 우려로 인해 주택 가격에 부정적인 영향을 미칠 수 있다.
  • RM : 주택당 평균 방 개수.
    값이 높을수록 방이 많은 주택이 많다는 것을 의미하며, 방 개수는 주택의 크기와 편의성을 나타내므로 주택 가격에 긍정적인 영향을 미치는 중요한 요소다.
  • AGE : 1940년 이전에 건축된 주택의 비율.
  • 값이 높을수록 오래된 주택이 많은 지역으로, 노후화된 주택은 주택 가격에 부정적인 영향을 미칠 수 있다.
  • DIS : 5개의 보스턴 직업센터까지의 가중 거리.
    값이 낮을수록 직업센터와 가까운 지역으로, 출퇴근의 편리성은 주택 가격에 긍정적인 영향을 미치는 요소다.
  • RAD : 고속도로 접근성 지수. 값이 높을수록 고속도로 접근성이 좋은 지역.
    고속도로 접근성은 편리성을 제공하지만, 소음과 같은 부정적인 측면도 가지고 있어 주택 가격에 미치는 영향은 복합적일 수 있다.
  • TAX : 재산세율. 값이 높을수록 재산세 부담이 큰 지역으로, 높은 세금은 주택 구매를 망설이게 만드는 요인이 되어 주택 가격에 부정적인 영향을 미칠 수 있다.
  • PTRATIO : 학생과 교사 비율. 값이 낮을수록 학생 수 대비 교사 수가 많은 지역으로, 우수한 교육 환경은 주택 가격에 긍정적인 영향을 미치는 중요한 요소.
  • B : 상관계수: r(B,MEDV)=0.33
    Bk는 도시별 흑인(sic) 비율
  • LSTAT : 상관계수: r(LSTAT,MEDV)=−0.74
    하위 계층 비율이 높을수록 주택 가격은 급격히 낮아지는 경향을 보인다.
  • MEDV : 중간 주택 가격. 우리가 예측하려는 목표 변수이며, 단위는 1,000달러.
    MEDV 값이 25라면 해당 지역의 중간 주택 가격은 25,000달러임을 의미한다.


표를 해석할 때는 각 열의 값들이 어떻게 MEDV (주택 가격)에 영향을 미치는지 살펴보는 것이 중요한데

 CRIM (범죄율)이 높은 지역은 MEDV (주택 가격)이 낮을 것이고, RM (방 개수)이 많은 지역은 MEDV (주택 가격)이 높을 것이라는 예측을 가지고 데이터분석을 하려고 한다.

 


공부용으로 써본 데이터셋이지 제 의견 아님!

 

해당 데이터셋에 대한 개인적인 견해

근데 이 데이터셋에는 함정이 있다...

B 변수와 LSTAT 변수가 아마 논란이 되지 않을까?

 

B 변수가 흑인 비율을 나타내는 지표로, 1000(Bk - 0.63)^2로 계산되는데 여기서 Bk는 특정 지역의 흑인 주민 비율을 의미한다. 인종으로 이런걸 계산한다는게 상당히 인종차별적으로 다가온다. 여기가 한국이고, 그냥 과제라서 하기는 하지만 이 부분에 좀 더 민감한 나라였다면 상상하기 싫다...!

 

그리고 LSTAT도 사회경제적 상태를 나타내는데 주택 가격과 저소득층과의 상관관계가 나온다,,, 

이런식으로 짜여진 데이터셋을 해석해서 이 해석이 주택 가격 예측에 중요한 역할을 하게 된다면, 저소득층 지역의 주택 가격을 낮게 예측하거나 소득 불평등을 고착화하는 것에 영향을 줄까봐 우려가 된다.

 

참고 포스팅 :

https://drlee.io/the-gross-racism-in-the-boston-housing-dataset-and-the-bias-behind-b-and-lstat-features-a9bf1a184904

 

The Gross Racism in The Boston Housing Dataset and the Bias Behind ‘B’ and ‘LSTAT’ Features

Understanding the nuances behind popular datasets and the importance of addressing biases in our data. This dataset is still widely…

drlee.io

https://towardsdatascience.com/things-you-didnt-know-about-the-boston-housing-dataset-2e87a6f960e8

 

Things You Didn’t Know About the Boston Housing Dataset

If you're studying data science you will probably come accross the Boston housing dataset. Actually, I dare you to try to google how to…

towardsdatascience.com

 

LIST

'Today I learned' 카테고리의 다른 글

WIL 퀴즈 3개(LEGB, 재귀함수 약간)  (1) 2024.12.20
2024.12.19 LEGB 규칙  (7) 2024.12.19
2024.12.17 각종 컴프리헨션 예제  (3) 2024.12.17
*args와 **kwargs  (2) 2024.12.17
2024.12.16 삼항연산자, 컴프리헨션  (2) 2024.12.16