Pagina de start a forumului Forum PHP Romania - Discutii despre PHP, MySQL, Javascript, AJAX, etc Forum PHP Romania - Discutii despre PHP, MySQL, Javascript, AJAX, etc
Comunitatea PHP Romania
 

2k
Vezi mesajul original

 
       Pagina de start a forumului Forum PHP Romania - Discutii despre PHP, MySQL, Javascript, AJAX, etc -> Motor de cautare
Subiectul anterior :: Subiectul următor  
Autor Mesaj
Zamolxe



Data înscrierii: 14/Ian/2003
Mesaje: 126
Locație: Bucharest

Trimis: Lun Mai 01, 2006 12:31 am    Titlul subiectului: 2k  

continuand intr-un fel ce s-a discutat in postulIdei (motor de cautare), va supun atentiei proiectul personal la care lucrez si pe baza caruia ma documentez de ceva luni:

VERASYS 2k crawler - este un crawler bazat pe PHP (mare parte cli) si MySQL.
PHP ruleaza cu niste patchuri, MySQL cu o configuratie pe care am tot testat-o special pt hardware, si tinde sa dea erori mai rar.

Momentan functioneaza public doar partea de research, partea de cautare propriu-zisa in rezultate inca nu este publica, este cea care mananca cele mai multe resurse in sensul ca nu am reusit pana acum cu nici un query (care returneaza rezultate relevante) sa obtin rezultate in timpi scurti. Este unul dintre motivele pe care m-am axat momentan pe partea de studiu cod html.

Am mai multe de facut la proiect (nu am pus tot online).

Cei interesati rog sa-l testeze. Multumesc
Sus  
Pirahna



Data înscrierii: 22/Aug/2004
Mesaje: 4279
Locație: acasa , in pat

Trimis: Lun Mai 01, 2006 12:54 am    Titlul subiectului:  

Ai pus o limita la numarul de unique links ?

ca tocmai am pus deviantart in queue ... si tinand cont ca sunt 21 de milioane de deviatii ...

inseamna cam aproape dublu de link-uri unice ...

sper sa se opreasca :D

//edit : s-a oprit la 42 , de ce ?
Sus  
Zamolxe



Data înscrierii: 14/Ian/2003
Mesaje: 126
Locație: Bucharest

Trimis: Lun Mai 01, 2006 12:58 am    Titlul subiectului: re  

:))

am scris pe prima pagina motivele pt care se opreste unde considera el, in jur de 50 de pagini:

Citat:
the crawler only works with .ro, .com, .net and .org domains, with a limit of max 50 (may vary) unique links per URL
to avoid SPAM, the crawler does not follow subdomains or any kind of redirect, so make shure the web page you want to crawl has no first page redirects


deci nu urmeaza subdomenii (nu conteaza ca sunt din acelasi domeniu), nu urmeaza redirecturi (301,302, etc) - din motive de SPAM. mi-am mai luat-o in freza de cateva ori

iti dai seama ca as fi nebun sa-l lasa fara limita ;)
Sus  
Pirahna



Data înscrierii: 22/Aug/2004
Mesaje: 4279
Locație: acasa , in pat

Trimis: Lun Mai 01, 2006 1:07 am    Titlul subiectului:  

okay ... e 2:00 am , piry nu vede bine ...

de ce imi zice ca "www.2k.ro" nu e valid ?

la fel zice si la "www.3x.ro"
vad ca "www.lx.ro" merge ...

hmm ... well ?
Sus  
Zamolxe



Data înscrierii: 14/Ian/2003
Mesaje: 126
Locație: Bucharest

Trimis: Lun Mai 01, 2006 1:14 am    Titlul subiectului: re  

:)

am impresia ca e o greseala de regex pe camp, la ora asta imi ceri prea mult :)) , s-ar putea sa fie din dns ..zzZzZZZzz

de obicei daca se opreste din indexat, sau ramane la 1 pagina inseamna ca nu are link-uri interne, ci numai subdomenii sau redirecturi
Sus  
black diamond



Data înscrierii: 23/Mai/2005
Mesaje: 298

Trimis: Mar Mai 02, 2006 3:35 pm    Titlul subiectului:  

typo: Citat: to avoid SPAM, the crawler does not follow subdomains or any kind of redirect, so make shure the web page you want to crawl has no first page redirects
Sus  
PHPRomania Bot
Bot Member


Data înscrierii: 27/Dec/2007
Mesaje: 1
Locaţie: Server Google
Trimis: Mie Dec 26, 2007 7:01 pm   Titlul subiectului: Ad  

Sus  
 
       Pagina de start a forumului Forum PHP Romania - Discutii despre PHP, MySQL, Javascript, AJAX, etc -> Motor de cautare
Pagina 1 din 1


Powered by phpBB 2.0.22 © 2001, 2002 phpBB Group
Varianta în limba română: Romanian phpBB online community