出版日: 2022年2月9日
現在のアパートの契約がもうすぐ終了し、素晴らしいディナーパーティーを開くための新しい場所を探しています。最初は、通常の人々のように、オンラインで場所をチェックして不動産業者を訪れることにしました。しかし、それはあまりにも退屈であると自分に言い聞かせました。私はデータサイエンティストなので、もっと良い方法を知っているはずです。
私たちの目的は、2022年3月末までに引っ越さなければならないので、東京で最も過小評価されている家を素早く見つけることです!家なしにならないようにするために、私たちは最も単純な機械学習モデルの1つである正則化線形回帰(リッジ回帰)を使用します。いくつかの変数をワンホットエンコードする必要があるため、正則化を使用し、係数が爆発しないようにします。
線形回帰を選択したもう一つの理由は、家の価格の背後にあるドライバーを理解するために比較的説明可能なモデルを構築したいということです。(ごめんなさい、マルチレイヤーパーセプトロン、あなたはどんな場合でも私のお気に入りです)
各家の月額賃料を予測するために線形回帰を実行します。最大の正の誤差(最も過剰予測された家)を持つ家が最も過小評価された家となります。モデルが大きな予測を行いましたが実際の価格が低い場合、この家は自明な選択肢となります。そして、おそらく私の次の家ですか?
私は217,389軒の家を東京の複数の不動産ウェブサイトからスクレイピングするコードを書きました。元のデータは非常に乱雑であるため、データ処理手順を省略します。最終的に、各家のデータには以下が含まれます:
モデルでは、従属変数は(賃料+管理費)となります。独立変数は、年齢、階、階数、面積、および地域(東京エリア内の都市)です。地域はワンホットエンコードされます。
実際の家の価格と予測された家の価格を見てみましょう:
モデルのR2は約84%で、このモデルを5分以内に実装できたことを考えると悪くありません。予測は実際の価格に対して曲線を描いています。多層パーセプトロンのような非線形モデルは、非常に高いR2を示すでしょう。(マルチレイヤーパーセプトロン、お帰りなさい!)
各変数が予測にどのように貢献しているかを見てみましょう:
上記のように、建物が古くなるにつれて、賃料が年間約800円(7米ドル)下がります。
興味深い点は、建物の総階数(約1,200円、11米ドル)が家の実際の階(1,000円、9米ドル)よりも影響力があるということです。したがって、高い階を探している場合は、短い建物にある家を探すのが最善です。(例:10階建てのビルの10階は、20階建てのビルの10階よりも安くなるはずです)
このモデルの最も重要な結果は、東京で1m2の家の面積が約2,200円(20米ドル)であるということです。悪くないですね!
上記の変数に加えて、家の地域(都市)をワンホットエンコードしてモデルにフィードしました。ワンホットエンコードされた変数の係数を見ることで、東京の各都市に対する住宅プレミアムを理解することができます。東京エリアで最も高価な都市(区)は何でしょうか?以下に示します:
港区は東京エリアで最も高価な都市であり、この都市に住むために月額約40,000円(350米ドル)支払う必要があります。渋谷、千代田、中央に続きます。一方、23区内のいくつかの都市は郊外と比較して安価です。例えば、足立区は国立市よりも中心部にありながら安価です。アクセスに関心がある場合は、足立区に引っ越すのが合理的です。
最後の段階に入りました。このプロジェクトを開始した洞察を見つけるための:最も過小評価されている家。これには、実際の価格と予測価格の間のエラーをチェックします。最も高い相対エラーを持つ家は次のとおりです:
この家の賃料は50,000円(430米ドル)ですが、当社のモデルでは178,000円(1,500米ドル)であると言います…これは確かに、品川にある3DKの一軒家で65m2に対して非常に安いように見えます。モデルは機能していますが、この家は間違いなく私のスタイルではありません。おそらく、隅田川を見下ろす河岸の家に行くことになるでしょう。なぜなら、ディナーパーティーのゲストは自分で楽しまれることはありませんから。
この記事のトピックのように、日常のタスクにデータサイエンスを使用するのが大好きです:引っ越し先の最も過小評価された家を見つける。私たちのシンプルなモデルは、84%のR2で東京の家の価格を予測するのに非常に良い仕事をしました。ただし、モデルの結果は常に慎重に扱う必要があり、結果をどのように解釈するかは個人によって異なります。
スクレイピングされたデータが非常に豊富なため、次のステップとして、駅をノードとして使用して家の価格を予測するグラフ畳み込みネットワークを構築することができます。このモデルでは、家の接続性を考慮します。
もう一つの将来のプロジェクトは、家の画像を使用してレイアウト(1K、1LDKなど)を予測することです。これにより、多くの労力が削減されます。
探求を続けよう!
この作品は英語からChatGPTによって翻訳されました。不明な点がある場合は、お問い合わせページからご連絡ください。
コメントを残す
コメント
その他の作品
2024/06/03
Kango: 漢字当てゲーム
2024/07/24
Lingo: 単語当てゲーム
2024/04/29
Druggio
2024/01/28
テトリス
2022/04/29
移動物体検出
2022/03/15
大気温の予測
2021/12/01
日本薬品データベース
2021/09/20
NHK番組のジャンル予測
2021/09/01
移動需要の予測