Nabízíme ucelené řešení

stažení z WWW

Stažení dat z WWW zdrojů

Jednorázové či pravidelné stahování dat z mnoha různých www zdrojů najednou. Pro každý zdroj je možné nastavit velké množství parametrů, abyste získali maximálně přesné informace.

Klasifikace a převod dat

Různé webové zdroje mají podobná data uvedena mnoha různými způsoby, Vy je však potřebujete v jednotném, strukturovaném tvaru.

Uložení do databáze

Načtená, převedená a klasifikovaná data je potřeba uložit. Musíte poznat, jestli je datová položka nová, stejná či změněná, včetně vícefázového stahování/doplnění informací z jiné stránky.

Vzorová případová studie

eReality.cz, největší agreace realitních zdrojů v ČR:

  • více než 70 různých zdrojů
  • data načítaná jak z výpisů zakázek, tak detailů
  • klasifikátor rozpoznává mnoho tříd a tisíce údajů včetně souvislostí
  • data HTML stránkách i v AJAX/JSON formátu
  • libovolně editovatelné parametry pro jednotlivé zdroje a fronty
  • možnost vložení obslužného programového kódu pro jednotlivé events ve všech fázích stahování
  • paralelní stahování s možností použití proxy serverů pro jednotlivé zdroje

Integrovat stahování dat není jednoduché, jinak by suprové vyhledávače dělal každý a uživatelé se nemuseli stále prokousávat desítkami serverů. Běžné webcrawlery se hodí spíš pro fulltext a ne pro stukturovaná data, neumí si poradit pokud jsou www stránky celá napsané jako JS aplikace. Psát si vlastní speciální stahovač je efektivní při nevelkém počtu zdrojů, ale jakmile se jedná o desítky zdrojů, potřebujete co nejuniverzálnější a propracovaný stahovač s rozsáhlou administrací a monitoringem, abyste uhlídali změny které jednotlivé webové zdroje provádí, či problémy.

administrační systém

Pokud máte zájem o podrobnější informace, rádi Vás poskytneme podrobnější informace či konzultaci.