Idei
Moderator: Moderatori
ideea asta o urmaresc si eu de ceva timp doar k merge destul de greu (mdeh...clasa a 12-a)...dar dispuneti de puterea de calcul necesara? adik pt colectarea informatiilor cred k o sa fol. arbori la memorarea linkurilor prin care trece....iar arborii astia o sa creasca intr-una....in fine....go on...nice ideea
-
grcodal
- New Member
- Mesaje: 3
- Membru din: Mar Dec 09, 2003 8:49 pm
- Localitate: Bucuresti - Galati
- Contact:
Motor de cautare
Exista deja, daca nu stiati, un motor de cautare free si open source in php + mysql: http://www.phpdig.net. L-am folosit pentru creare unui motor de cautare ptr paginile romanesti si la cam 15.000 site-uri indexate query-ul merge sub 1 sec. Problema este ca la cautare nu sorteaza rezultatele prea bine, l-am modificat impreuna cu un coleg de munca si merge putin mai bine, dar se poate si mai mult.
Parerea mea este ca cine ar dori ar putea folosi acest motor si l-ar putea modifica dupa cum doreste.
Parerea mea este ca cine ar dori ar putea folosi acest motor si l-ar putea modifica dupa cum doreste.
- danovidiu
- PHPRomania Moderator
- Mesaje: 35
- Membru din: Dum Mai 26, 2002 1:44 am
- Localitate: Tg-Mures, Romania
- Contact:
Personal de ceva timp (~2 ani) studiez motoare de cautare. Am citit despre cum functioneaza Google in detaliu, si am implementat un prototip in PHP.
Un motor de cautare in pagini de Internet .ro ar trebui sa indexeze fiecare pagina, nu numai informatii cum ar fi titlul, description etc.
Din pacate asa ceva NU ar merge in PHP+MySQL. Nu zic ca e imposibil, dar sunt alternative mult mai rapide.
Motorul de cautare care l-am scris (PHP) putea sa caute in cateva zeci de mii de pagini in maxim 2 secunde(ma mai gandesc daca il lansez sub licenta GPL). Dar asta e doar o parte infima a Internetului romanesc. God, numai site-ul meu are 10000 de pagini
Motorul de cautare propus de cristi ar trebui sa ruleze pe un hardware "decent", putin spus.
Am inceput dupa aceea sa caut alternative open-source scrise in C. Am dat de mnogosearch. Am implementat 2 motoare de cautare pentru testare :
- cauta in site-uri de gaming internationale
- cauta in documentatie PHP, MySQL, Python, Howto etc
Sper ca le puteti accesa, s-ar putea sa fie mici pb cu rutarea IP-ului.
Un motor de cautare in pagini de Internet .ro ar trebui sa indexeze fiecare pagina, nu numai informatii cum ar fi titlul, description etc.
Din pacate asa ceva NU ar merge in PHP+MySQL. Nu zic ca e imposibil, dar sunt alternative mult mai rapide.
Motorul de cautare care l-am scris (PHP) putea sa caute in cateva zeci de mii de pagini in maxim 2 secunde(ma mai gandesc daca il lansez sub licenta GPL). Dar asta e doar o parte infima a Internetului romanesc. God, numai site-ul meu are 10000 de pagini
Motorul de cautare propus de cristi ar trebui sa ruleze pe un hardware "decent", putin spus.
Am inceput dupa aceea sa caut alternative open-source scrise in C. Am dat de mnogosearch. Am implementat 2 motoare de cautare pentru testare :
- cauta in site-uri de gaming internationale
- cauta in documentatie PHP, MySQL, Python, Howto etc
Sper ca le puteti accesa, s-ar putea sa fie mici pb cu rutarea IP-ului.
If you can't find a way, make one !
Dan Ovidiu, Manager de proiecte,
Asociatia non-profit STG
https://www.sparetimegroup.net/
jabber://smarty@sparetimegroup.net
Dan Ovidiu, Manager de proiecte,
Asociatia non-profit STG
https://www.sparetimegroup.net/
jabber://smarty@sparetimegroup.net
Subscriu la ce a zis danovidiu. Parerile mele:
Problemele se impart in 2 mari categorii:
1. Indexarea
Pentru a realiza o indexare decenta trebuie mai mult decat un DBMS relational (cu atat mai mult MySQL care e lent la insert-uri), si cu siguranta bot-ul de indexare n-ar trebui sa fie scris intr-un un limbaj de scripting.
Mai mult decat atat, apar o gramada de probleme mai mari sau marunte:
a. Vizitele trebuie programate... pentru ca multi webmasteri vad vizite succesive si rapide de la aceeasi adresa IP ca pe ceva nedorit.
b. Meta tag-urile au iesit din trend, asa ca pentru a fi cat de cat performant trebuie un deep search in pagina... cu problemele de rigoare legate de calculele de relevanta pentru cuvinte cheie, etc, etc
c. ... am uitat, dar parea important
2. Cautarea
Pentru a realiza o cautare decenta trebuie mai mult decat un DBMS relational si cu siguranta nu PHP
.
Ar trebui o tehnologie de procesare distribuita, blah-blah... sa poata sa scaleze corespunzator cand ii vine vremea. Altfel te trezesti ca peste x pagini indexate totul se rupe in doua.
Iar un motiv killer pentru inutilitatea proiectului este chiar Google. E localizat, poate sa caute dupa chestii cu diacritice, poate sa caute numai chestii scrise intr-o anume limba... etc, etc + o tehnologie super-performanta.
Cu alte cuvinte, una peste alta nu cred sa fie un proiect util si fezabil (evident, e foarte posibil sa ma insel...).
Poate ar fi mai interesant un gateway pentru Google... cautare pe Google cu optiuni romanesti by default (evident, trebuie vazut si ce politica are Google in privinta asta... ca altfel ne leaga si ne duc departe
).
Problemele se impart in 2 mari categorii:
1. Indexarea
Pentru a realiza o indexare decenta trebuie mai mult decat un DBMS relational (cu atat mai mult MySQL care e lent la insert-uri), si cu siguranta bot-ul de indexare n-ar trebui sa fie scris intr-un un limbaj de scripting.
Mai mult decat atat, apar o gramada de probleme mai mari sau marunte:
a. Vizitele trebuie programate... pentru ca multi webmasteri vad vizite succesive si rapide de la aceeasi adresa IP ca pe ceva nedorit.
b. Meta tag-urile au iesit din trend, asa ca pentru a fi cat de cat performant trebuie un deep search in pagina... cu problemele de rigoare legate de calculele de relevanta pentru cuvinte cheie, etc, etc
c. ... am uitat, dar parea important
2. Cautarea
Pentru a realiza o cautare decenta trebuie mai mult decat un DBMS relational si cu siguranta nu PHP
Ar trebui o tehnologie de procesare distribuita, blah-blah... sa poata sa scaleze corespunzator cand ii vine vremea. Altfel te trezesti ca peste x pagini indexate totul se rupe in doua.
Iar un motiv killer pentru inutilitatea proiectului este chiar Google. E localizat, poate sa caute dupa chestii cu diacritice, poate sa caute numai chestii scrise intr-o anume limba... etc, etc + o tehnologie super-performanta.
Cu alte cuvinte, una peste alta nu cred sa fie un proiect util si fezabil (evident, e foarte posibil sa ma insel...).
Poate ar fi mai interesant un gateway pentru Google... cautare pe Google cu optiuni romanesti by default (evident, trebuie vazut si ce politica are Google in privinta asta... ca altfel ne leaga si ne duc departe
People ask for criticism, but they only want praise.
W. Somerset Maugham (1874 - 1965).
http://www.arond-design.ro
W. Somerset Maugham (1874 - 1965).
http://www.arond-design.ro
Cine este conectat
Utilizatori ce ce navighează pe acest forum: Niciun utilizator înregistrat și 2 vizitatori


