continuand intr-un fel ce s-a discutat in postulIdei (motor de cautare), va supun atentiei proiectul personal la care lucrez si pe baza caruia ma documentez de ceva luni:
VERASYS 2k crawler - este un crawler bazat pe PHP (mare parte cli) si MySQL.
PHP ruleaza cu niste patchuri, MySQL cu o configuratie pe care am tot testat-o special pt hardware, si tinde sa dea erori mai rar.
Momentan functioneaza public doar partea de research, partea de cautare propriu-zisa in rezultate inca nu este publica, este cea care mananca cele mai multe resurse in sensul ca nu am reusit pana acum cu nici un query (care returneaza rezultate relevante) sa obtin rezultate in timpi scurti. Este unul dintre motivele pe care m-am axat momentan pe partea de studiu cod html.
Am mai multe de facut la proiect (nu am pus tot online).
Cei interesati rog sa-l testeze. Multumesc
2k
Moderator: Moderatori
re
)
am scris pe prima pagina motivele pt care se opreste unde considera el, in jur de 50 de pagini:
deci nu urmeaza subdomenii (nu conteaza ca sunt din acelasi domeniu), nu urmeaza redirecturi (301,302, etc) - din motive de SPAM. mi-am mai luat-o in freza de cateva ori
iti dai seama ca as fi nebun sa-l lasa fara limita
am scris pe prima pagina motivele pt care se opreste unde considera el, in jur de 50 de pagini:
the crawler only works with .ro, .com, .net and .org domains, with a limit of max 50 (may vary) unique links per URL
to avoid SPAM, the crawler does not follow subdomains or any kind of redirect, so make shure the web page you want to crawl has no first page redirects
deci nu urmeaza subdomenii (nu conteaza ca sunt din acelasi domeniu), nu urmeaza redirecturi (301,302, etc) - din motive de SPAM. mi-am mai luat-o in freza de cateva ori
iti dai seama ca as fi nebun sa-l lasa fara limita
re
am impresia ca e o greseala de regex pe camp, la ora asta imi ceri prea mult ) , s-ar putea sa fie din dns ..zzZzZZZzz
de obicei daca se opreste din indexat, sau ramane la 1 pagina inseamna ca nu are link-uri interne, ci numai subdomenii sau redirecturi
- black diamond
- Senior Member
- Mesaje: 298
- Membru din: Lun Mai 23, 2005 8:42 pm
- Contact:
typo:
to avoid SPAM, the crawler does not follow subdomains or any kind of redirect, so make shure the web page you want to crawl has no first page redirects
posturile mele | my tiny blog
p.s. pentru anumite lucruri trebuie un dram de logica si rabdare... sau o cautare scurta pe net. faceti uz de google!
p.s. pentru anumite lucruri trebuie un dram de logica si rabdare... sau o cautare scurta pe net. faceti uz de google!
Cine este conectat
Utilizatori ce ce navighează pe acest forum: Niciun utilizator înregistrat și 5 vizitatori