AI モデルの仕組み
マプカチの推定価格は、 国土交通省「不動産情報ライブラリ」 のオープンデータを LightGBM 回帰モデルで学習し、 split-conformal キャリブレーションで予測幅 (75% 信頼区間) を組み合わせて生成しています。 透明性確保のため、 全工程を公開します。
1. 学習データ
マプカチが学習に使用する公的データの概要:
| 項目 | 内容 |
|---|---|
| 主データ | 不動産取引価格情報・成約価格情報 (REINFOLIB) |
| 期間 | 2021Q1 〜 2025Q4 (約 5 年間) |
| 範囲 | 全国 47 都道府県 |
| レコード数 | 中古マンション 約 36 万件 + 戸建て 約 23 万件 = 約 596,700 件 |
| 補助データ | 行政区域 (N03) / 鉄道 (N02) / 位置参照情報 / 公示地価 (時期によって参照) |
2. 前処理 (編集・加工)
REINFOLIB の生データは AI 学習に直接使えないため、 以下の編集・加工を実施しています:
- 建築年の正規化: 和暦 (平成・令和・戦前) を西暦に変換
- 面積のパース: 文字列・全角・単位混在の面積を数値に統一
- 外れ値除去: 価格 ÷ 面積で計算した ㎡ 単価について、 市区町村別・四半期別に MAD (中央絶対偏差) ベースで極端な外れ値を除外 (約 1.6% 除外)
- 町丁目集約: 個別取引を町丁目 (大字) レベルで集約し、 周辺取引数や近隣中央値を派生特徴量として生成
- 駅距離特徴の生成: 国土数値情報の駅位置から最寄り駅・2 番目に近い駅・主要路線駅までの直線距離を計算
- 道路情報の取り込み (戸建てのみ): 前面道路の幅員・方位を訓練データから取得 (取得できない場合は NaN として LightGBM が自動処理)
前処理コードは learn された予測モデルが OSS と同様に再現できる程度に文書化されています。 詳細な実装は本サービスのソースコード (Python + scikit-learn 互換 LightGBM) でご確認いただけます。
3. 入力特徴量
モデルが推論時に参照する特徴量 (全 30 程度):
立地系
- 都道府県 / 市区町村コード / 町丁目名
- 緯度経度 (推論時はクリック位置)
- 都市計画 (用途地域)
物件系
- 面積 (専有面積 or 土地面積)
- 延床面積 (戸建てのみ)
- 間取り (1R 〜 5LDK+)
- 築年数 (取引年 − 建築年)
- 建ぺい率 / 容積率
駅・交通系
- 最寄り駅名 / 距離
- 2 番目・3 番目に近い駅の距離
- 1km 圏内の駅数
- 山手線 / 中央線 / 京浜東北線への最短距離
近隣統計 + その他
- 500m / 1km / 2km 圏の中央 ㎡ 単価 + 件数
- 取引年 (時間トレンド)
- 前面道路の幅員・方位 (戸建てのみ、 任意入力)
4. モデル: LightGBM 回帰
マプカチは LightGBM (Microsoft 開発の勾配ブースティング決定木フレームワーク) を用いた回帰モデルを学習しています。
- 目的関数: quantile loss (alpha=0.5) で対数価格の中央値を予測
- ハイパーパラメータ: Optuna による事前探索で決定
- 中古マンション・戸建てを別モデルとして学習 (特徴量の効き方が異なるため)
- 訓練時には末尾の四半期 (2025Q4) をホールドアウトとして検証に利用
5. 予測幅 (75% 信頼区間) の生成
マプカチは点推定だけでなく 予測幅 (75% 信頼区間) も同時に表示します。 これは「同じ条件で 100 回取引があれば、 約 75 回はこの範囲に収まる」 という意味で、 物件ごとに異なる不確実性を反映します。
仕組み:
- 中央値モデルとは別に「σ̂ モデル (不確実性予測モデル)」 を学習。 訓練データの残差 (実際の価格 − 予測値の絶対値) を回帰のターゲットとし、 LightGBM で学習
- 検証セット (2025Q4) で予測値・σ̂ を計算し、 残差を σ̂ で正規化した分布の 12.5 / 87.5 パーセンタイル (q_lo, q_hi) を保存
- 推論時: 中央値 + (q_lo, q_hi) × σ̂(x) で予測幅を算出
これは Split Conformal Prediction (Romano et al. 2019 / Lei et al. 2018) と呼ばれる統計手法で、 ホールドアウト検証セット上で 75% カバレッジを保証します。
6. バックテスト結果 (検証セット)
2025Q4 のホールドアウト検証結果 (執筆時点):
| 指標 | 中古マンション | 戸建て |
|---|---|---|
| MAPE (平均絶対誤差率) | 約 16.9% | 約 19.2% |
| 75% 信頼区間 実測カバレッジ | 75.0% | 75.0% |
| 予測幅の中央値 / 推定価格 比率 | 約 44% | 約 42% |
これらの指標は検証セット (2025Q4) における目安であり、 個別物件の予測精度を保証するものではありません。 物件・エリア・特殊事情によって精度は変動します。
7. モデルの限界と注意点
- 過去の取引データに基づく統計予測です。 急激な市況変化や個別物件の特殊事情 (角部屋 / 専用庭 / 眺望 / リフォーム履歴 等) は反映されません
- 町丁目別の予測は東京 23 区が最も網羅的で、 その他地域は市町村単位の集約となる場合があります
- 建築年・面積・間取り等が不明な場合は、 同間取りの一般的な中央値で代替されます
- 戸建ての前面道路・延床面積は任意入力です。 未入力でも予測可能ですが、 入力すると精度がやや向上することを訓練時に確認しています
- 金融機関の融資審査・税務申告・法定書類 等の根拠資料としては使用できません
8. アップデートと更新頻度
モデルは概ね月次〜数ヶ月単位で再学習・再キャリブレーションを行っています。 最新の更新時期と検証指標は トップページ 予測結果の モデル v0.7-conformal 等のバージョン表記でご確認いただけます。
予測を試す
地図上の任意の地点をクリックすると、 上記の AI モデルが瞬時に推定価格と予測幅を算出します。 「マプカチ トップ」 から始められます。
出典・編集加工について
本ページで言及した数値・統計値は、 国土交通省「不動産情報ライブラリ」 (https://www.reinfolib.mlit.go.jp/) のオープンデータを マプカチが学習用に正規化・加工して算出したものです。 国土交通省はマプカチの編集・加工に一切関与していません。 出典記載および編集加工の表記は、 国土交通省 不動産情報ライブラリ 利用規約に基づいています。