mercredi 30 mai 2012

Ce qui est dans un numéro?

Dans le cas de la Zestimate, un son beaucoup. Lloyds blog post A annoncé jeudi que nous avons officiellement sorti de beta, de concert avec l'expansion de notre base de données et d'améliorer notre précision. Je voulais offrir une perspective un peu plus sur ce qui se passe dans votre Zestimate maintenant.

Quand nous d'abord lancé en 2006, Nous avons décidé de faire quelque chose que personne d'autre faisait mettre une valeur sur des millions de foyers en Amérique, gratuitement. Mais pas n'importe quel valeur. Nous voulions une valeur que nous pourrions mettre à jour souvent (afin que les consommateurs auront toujours une évaluation fraîche) et celui que nous avons pu calculer le passé pour toutes les maisons (de sorte que les consommateurs ont un sens pour l'évolution des prix a changé au fil du temps). Donc, nous avons passé quelque temps à regarder comment les autres avaient abordé ce problème dans le passé, a décidé qu'aucune de ces approches suffirait pour la précision, la vitesse et l'ampleur du problème que nous tentions de résoudre, et se mit à inventer une nouvelle façon de faire des évaluations à domicile quotidiennes sur des millions de foyers.

Pour commencer, nous avons emprunté massivement dans les domaines de l'apprentissage machine, l'intelligence artificielle, découverte automatisée de connaissances et de statistiques, et à partir d'applications de ces champs pour les domaines de la recherche en génomique, de détection de modèle pour les problèmes de sécurité nationale, la biologie computationnelle, et le négoce des actions automatisées . Le résultat fut un algorithme qui a été en mesure de prendre les dossiers des ventes récentes et incorporer des milliards de détail à domicile uniques (qui varie dans la façon dont ceux-ci ont été définis et enregistrés par chaque comté) afin de calculer les évaluations actuelles Zestimate avec un taux très raisonnable d'exactitude. Et faire tout cela tous les soirs, pour 40 millions de foyers.

Après, nous avons lancé, nous avons obtenu le bénéfice de programmation en temps réel que nous avons été constamment ajouter de nouvelles informations et des sources de données ainsi que les transactions de vente. Cela a permis d'élargir notre base de données et identifier les problèmes au sein des marchés. Comme nous l'avons appris davantage sur les écarts du marché, nous savions que nous avions besoin d'un algorithme plus sophistiqué que pouvaient digérer le montant de l'intelligence nous ont été la collecte. En outre, nous avons réalisé que certains de nos sources de données ont été plus limités que d'autres et nous avons voulu offrir aux propriétaires et agents immobiliers de la capacité de mettre à jour les faits à domicile car ils ont la connaissance la plus intime de la propriété. Nous avons lancé la possibilité de modifier faits maison en Décembre 2006 et peu de temps après a commencé la construction de notre nouvel algorithme.

Dans les premières étapes de cette tâche de construction, nos statisticiens et analystes de l'équipe passé beaucoup de temps regarder où l'algorithme initial a été contestée. Par exemple, en Californie, nos modèles n'ont pas toujours compenser totalement les effets de la proposition 13 sur les cotisations. À New York, de nombreux foyers ne devez pas le nombre de chambres et salles de bains énumérés dans les données publiques. À Chicago, on a souvent seulement obtenir le nombre de salles de bains et la superficie.

Après les statisticiens esquissé un prototype d'un nouvel algorithme visant à réparer ou contourner les écarts du marché de nombreux, nos ingénieurs logiciels talentueux ont apporté leurs propres idées de la façon d'améliorer l'algorithme, a travaillé sans relâche pour mettre en œuvre le tout, mis au point des solutions pour combler les lacunes qui a émergé lors de l'exécution et, en général, fait le produit final sensiblement meilleure que celle où il a commencé.

Parallèlement à l'effort sur le front de l'évaluation, notre équipe de données a été furieux de travail sur la mise en ligne de nouvelles sources de données dans le but d'obtenir plus de millions de foyers dans notre base de données de maisons et de permettre des évaluations Zestimate sur les maisons déjà dans notre base de données mais pour lesquelles nous ont été incapables de valeur précédemment en raison du manque de données sur les ventes.

Le résultat de ces efforts conjugués de la dernière année est ce que vous trouvez aujourd'hui dans votre Zestimate, qui selon l'endroit où vous vivez, est jusqu'à 30% plus précis que par le passé. Howd nous faire cela? Notre nouvel algorithme a 20 fois plus de modèles statistiques que notre original, en cours d'exécution d'environ 334 000 modèles chaque jour. Pour notre sortie la semaine dernière, ce Zestimates consistait à calculer au cours des 12 dernières années sur notre base de données entière de 80 millions de foyers au total, nous avons brassé 4 téraoctets de données en utilisant 67 millions de modèles statistiques pour calculer 13 milliards Zestimates. Thats tout un tas de Zestimates. Donc, beaucoup, en fait, que nous nous sommes tournés à nos amis sur la colline ici à Seattle à utiliser 500 noeuds de calcul à Amazon Web Services afin de calculer toutes les Zestimates historiques. Et, grâce aux efforts de la petite équipe de personnes qui apportent de nouvelles données dans Zillow, weve a obtenu ces Zestimates meilleurs sur Zestimates 14 millions de plus que avant que les données ainsi que sur une autre encore 10 millions de foyers supplémentaires.

L'augmentation significative dans les modèles nous a permis d'obtenir beaucoup plus granulaire et prendre en compte plusieurs de ces écarts sur le marché lors du calcul de Zestimate notamment à examiner les données à un niveau plus local. Comme Lloyd a souligné, nous sommes aussi désormais compte des faits à domicile édités, et dans nos Zestimates actuelles, weve comprenait 16 millions de nouveaux points de données qui nous sont fournis par les utilisateurs qui ont soutenu le gain de précision. Quoi de plus, l'algorithme Zillow nouvelle auto-apprentissage afin de nous intégrer plus de données, il devient plus intelligent. Le résultat est une base de données plus robuste et plus précise qui, à son tour, aide les consommateurs à devenir plus intelligent sur l'immobilier.

Tout cela ne veut pas dire que nous ne nous trompons encore parfois. Nous avons certainement le faire, et parfois de façon considérable. Il est à dire, cependant, que nous ayons visitée pris aujourd'hui un grand pas en avant dans la précision et ne devions prendre plus, plus petites, plus rapides étapes dans l'avenir. Ce ne pouvait pas avoir été fait sans le travail acharné et sans relâche de la perfection par l'équipe de Zillow. Il ya beaucoup de yeux injectés de sang et fatigué à obtenir ce live pour le monde de seeand c'était bien la peine. Et, theres plus à venir.

Dr Stan Humphries est un économiste immobilier and expert immobilier pour Zillow. Stan est en charge des données et de l'équipe d'analyse au Zillow, qui se développe des données du marché du logement pour la plupart des grandes régions statistiques métropolitaines aux États-Unis, et fournit de la recherche économique pour le courant biens immobiliers conditions du marché. Il a contribué à créer des algorithmes pour le populaire Zestimate valeur de la maison et le Indice de Zillow Valeur Accueil (ZHVI).

Aucun commentaire:

Enregistrer un commentaire