Doresc sa realizez un motor de cautare pentru cca 20-25 de site-uri, motorul va terbui sa indexeze paginiile exact cum le face google, yahoo, msn, etc.
Am stat cateva nopti sa gandesc planul dar am intampinat niste greutati.
Prima ar fi alegerea limbajului de programare pentru crearea motorului. Cineva mi-a zis sa ma orientez spre perl si python, voi ce ziceti?
PHP suficient de puternic pentru un motor de cautare
Moderatori: Zamolxe, Moderatori
- vectorialpx
- Senior Member
- Mesaje: 4832
- Membru din: Mar Mar 01, 2005 9:48 am
- Localitate: Bucuresti
- Contact:
ce inseamna sa indexeze pentru tine? de ce dimensiuni ai nevoie?
yahoo foloseste PHP si nu se vaita ca "nu e suficient de puternic"...
tind sa cred ca post-ul tau e o gluma atat timp cat PHP sta la baza a miliarde de site-uri si nimeni nu se vaita de un astfel de "neajuns" decat cei ce vor sa faca chestii care necesita resurse foarte multe
yahoo foloseste PHP si nu se vaita ca "nu e suficient de puternic"...
tind sa cred ca post-ul tau e o gluma atat timp cat PHP sta la baza a miliarde de site-uri si nimeni nu se vaita de un astfel de "neajuns" decat cei ce vor sa faca chestii care necesita resurse foarte multe
Ok evitand orice alt flame anterior am sa incerc sa iti raspund. Algoritmul motorului de cautare conteaza enorm. Indexarea ca si Google este cam dificila pentru ca desi se fac n speculatii si x afirma ca stiu sigur cum functioneaza, nimic nu merge in practica 100%.
Indexarea pentru 20-30 de pagini nu ar trebui sa fie foarte dificila dar e de preferat sa uiti de acest numar in momentul in care gandesti sistemul ca atunci cand te vei extinde sa nu te lovesti de probleme de pseudocod practic si algoritmica.
Limbaje care sa suporte astfel de cerinte sunt pe cat de multe pe atat de variate:
1. PHP - are absolut toate functiile necesare si este stabil pentru a extinde cam orice aplicatie pe el.
2. ASP[.]NET - platforma [.]NET 3.0 vine cu multe imbunatatiri in puncte cheie in cazul tau dar e mai greu in momentul in care vrei sa te mentii in legalitate daca nu iti permiti un MS SQL Server si un IIS.
3. RoR - dinamic, energic dar nu atat de popular deci va trebui sa mai scrii tu de mana una alta
Rezumat: orienteaza-te spre ce iti este mai familiar. Algoritmica iti va consuma mult timp si nu vrei sa dai si peste probleme de sintaxa.
Indexarea pentru 20-30 de pagini nu ar trebui sa fie foarte dificila dar e de preferat sa uiti de acest numar in momentul in care gandesti sistemul ca atunci cand te vei extinde sa nu te lovesti de probleme de pseudocod practic si algoritmica.
Limbaje care sa suporte astfel de cerinte sunt pe cat de multe pe atat de variate:
1. PHP - are absolut toate functiile necesare si este stabil pentru a extinde cam orice aplicatie pe el.
2. ASP[.]NET - platforma [.]NET 3.0 vine cu multe imbunatatiri in puncte cheie in cazul tau dar e mai greu in momentul in care vrei sa te mentii in legalitate daca nu iti permiti un MS SQL Server si un IIS.
3. RoR - dinamic, energic dar nu atat de popular deci va trebui sa mai scrii tu de mana una alta
Rezumat: orienteaza-te spre ce iti este mai familiar. Algoritmica iti va consuma mult timp si nu vrei sa dai si peste probleme de sintaxa.
20-30 de website-uri iti pot genera o baza de date de cativa Gb la indexare. Sincer depinde de marimea site-urilor pe care le ai de indexat.
Puterea de indexare (cat de repede sunt indexate site-urile respective) este data in mod normal de webserverul pe care sunt hostate acele site-uri. PHP-ul ruland pe un hardware minim (un celeron cu 256 Mb RAM) este in masura sa ceara pagini mai repede decat pot fi ele servite de webserverele respective. Biblioteca CURL ajuta enorm ..
Nu poti garanta indexarea si ranking-ul cuvintelor similar cu Google, Yahoo etc pentru ca nu stii cum le fac ei.
Vei avea destule probleme sa indexezi informatia din PDF-uri, Excel-uri, Word-uri, MP3-uri, Flash-uri etc aflate pe site-urile respective. Daca se cere doar indexarea paginilor HTML, CSS, JS .. e simplu pentru ca ceea ce trebuie sa citesti e text.
Fii atent la portul pe care citesti informatia. HTTP-ul functioneaza implicit pe portul 80. Daca ai site-uri securizate, folosesti HTTPS (port 443).
Odata indexate informatiile, tot ce face search-ul tau sunt query-uri catre baza de date .. deci poti spune ca faci motorul de cautare in SQL, nu in PHP :)
Puterea de indexare (cat de repede sunt indexate site-urile respective) este data in mod normal de webserverul pe care sunt hostate acele site-uri. PHP-ul ruland pe un hardware minim (un celeron cu 256 Mb RAM) este in masura sa ceara pagini mai repede decat pot fi ele servite de webserverele respective. Biblioteca CURL ajuta enorm ..
Nu poti garanta indexarea si ranking-ul cuvintelor similar cu Google, Yahoo etc pentru ca nu stii cum le fac ei.
Vei avea destule probleme sa indexezi informatia din PDF-uri, Excel-uri, Word-uri, MP3-uri, Flash-uri etc aflate pe site-urile respective. Daca se cere doar indexarea paginilor HTML, CSS, JS .. e simplu pentru ca ceea ce trebuie sa citesti e text.
Fii atent la portul pe care citesti informatia. HTTP-ul functioneaza implicit pe portul 80. Daca ai site-uri securizate, folosesti HTTPS (port 443).
Odata indexate informatiile, tot ce face search-ul tau sunt query-uri catre baza de date .. deci poti spune ca faci motorul de cautare in SQL, nu in PHP :)
Join The Forums - Time Well Wasted!
- vectorialpx
- Senior Member
- Mesaje: 4832
- Membru din: Mar Mar 01, 2005 9:48 am
- Localitate: Bucuresti
- Contact:
-
necenzurat
- Senior Member
- Mesaje: 360
- Membru din: Sâm Sep 10, 2005 8:00 am
sau poti folosi http://www.sphider.eu/
-
carco
- Senior Member
- Mesaje: 2799
- Membru din: Joi Mai 27, 2004 4:36 pm
- Localitate: Bucuresti
- Contact:
poti sa tragi cu ochiul si la PhpDig http://www.phpdig.net/
Programator cu experienta in Magento/ZF, Typo3/Flow3, Symfony, B2B, CRM, ERP, SMB... vand betoniera
whooper scrie:Vei avea destule probleme sa indexezi informatia din PDF-uri, Excel-uri, Word-uri, MP3-uri, Flash-uri etc aflate pe site-urile respective. Daca se cere doar indexarea paginilor HTML, CSS, JS .. e simplu pentru ca ceea ce trebuie sa citesti e text.
nici un motor de cautare nu poate sa indexeze tipul asta de fisiere. Este constient de existenta lor, dar continutul nu poate fi citit. Nici google, nici msn, nici cine vrei tu nu poate sa faca asta.[/quote]
-
necenzurat
- Senior Member
- Mesaje: 360
- Membru din: Sâm Sep 10, 2005 8:00 am
Cine este conectat
Utilizatori ce ce navighează pe acest forum: Niciun utilizator înregistrat și 39 vizitatori