Jednorázové či pravidelné stahování dat z mnoha různých www zdrojů najednou. Pro každý zdroj je možné nastavit velké množství parametrů, abyste získali maximálně přesné informace.
Různé webové zdroje mají informace uvedeny mnoha různými způsoby, někdy je vše uvedeno jako jeden kus textu, Vy je však potřebujete jednotlivé údaje v jednotném, strukturovaném tvaru.
Načtená, převedená a klasifikovaná data je potřeba uložit. Je třeba např. určit, je-li je datová položka nová, stejná či změněná, včetně vícefázového stahování/doplnění informací z jiné stránky.
eReality.cz, největší agreace realitních zdrojů v ČR:
Integrovat stahování dat není jednoduché, jinak by suprové vyhledávače dělal každý a uživatelé se nemuseli stále prokousávat desítkami serverů. Běžné webcrawlery se hodí spíš pro fulltext a ne pro databázová data, neumí si poradit pokud jsou www stránky napsané jako JS aplikace. Psát si vlastní speciální stahovač je jednoduché a efektivní při nevelkém počtu WWW zdrojů, ale jakmile se jedná o desítky zcela odlišných zdrojů, potřebujete co nejuniverzálnější a propracovaný stahovač s rozsáhlou administrací a monitoringem aby se daly hlídat změny které jednotlivé weby provádí, či různé problémy.
Pokud máte zájem o podrobnější informace, rádi Vás poskytneme podrobnější informace či konzultaci.