ecaut.ro motor de cautare

Proiect care işi propune realizarea unui motor de căutare pentru site-urile .ro.

Moderator: Moderatori

Sustii idea unui motor de cautare Romanesc ?

DA
8
73%
NU
3
27%
 
Voturi totale: 11

Avatar utilizator
Seotop
PHPRomania Supporter
Mesaje: 25
Membru din: Mie Mar 25, 2009 10:56 pm
Localitate: Brasov
Contact:

ecaut.ro motor de cautare

Mesajde Seotop » Mar Ian 10, 2012 8:13 pm

ecaut.ro un motor de cautare Romanesc cu propriul spider/crawler .
Indexeaza doar site-uri din Romania , dar prin inscriere manuala se poate indexa orice site web.
Motorul si crawlerul sunt scrise in aproape totalitate in PHP.

in momentul de fata as avea nevoie de sustinere si/sau sfaturi.

mii de multumiri.


Caut in Romania

quadmachine
Senior Member
Mesaje: 807
Membru din: Sâm Iul 10, 2010 4:58 pm
Localitate: Ploiesti
Contact:

Mesajde quadmachine » Mar Ian 10, 2012 9:13 pm

Marimea font-ului la descriere este mai mare ca marimea font-ului la link.Paginarea arata destul de urat ,la cautare imagini ai putea sa afisezi imaginile pe centru si nu sus de tot la block.

Cod: Selectaţi tot

Nu confundati femeia de serviciu cu profesoara de Limba si Literatura Romana.

Avatar utilizator
Seotop
PHPRomania Supporter
Mesaje: 25
Membru din: Mie Mar 25, 2009 10:56 pm
Localitate: Brasov
Contact:

Mesajde Seotop » Mar Ian 10, 2012 9:26 pm

intradevar nu am lucrat prea mult la design, deocamdata inca am foarte mult de lucrat pe partea tehnica.
cred ca designul se poate aranja un pic mai tarziu.

oricum multumesc pentru sfat
Caut in Romania

l33t
Senior Member
Mesaje: 216
Membru din: Sâm Mai 10, 2008 7:31 pm

Mesajde l33t » Joi Iun 14, 2012 12:25 am

Interesant. Sunt curios cum ai facut anumite chestii, in primul rand crawlerul, cam de cate ori trece peste un site? Tine cont de link-urile din pagina, sitemap.xml, robots.txt. Ce faci daca un site iti baneaza ip-ul?
Cat de mult poate scala? Cum tii datele acum? Ce arhitectura folosesti?
Cred ca folosesti addslashes si strip_tags, apar aiurea unele texte cautate, spre exemplu http://example.com

Avatar utilizator
Seotop
PHPRomania Supporter
Mesaje: 25
Membru din: Mie Mar 25, 2009 10:56 pm
Localitate: Brasov
Contact:

Mesajde Seotop » Joi Iun 14, 2012 6:22 pm

l33t scrie:Interesant. Sunt curios cum ai facut anumite chestii, in primul rand crawlerul, cam de cate ori trece peste un site? Tine cont de link-urile din pagina, sitemap.xml, robots.txt. Ce faci daca un site iti baneaza ip-ul?
Cat de mult poate scala? Cum tii datele acum? Ce arhitectura folosesti?
Cred ca folosesti addslashes si strip_tags, apar aiurea unele texte cautate, spre exemplu http://example.com


Crawlerul trece ciclic peste toate site-urile odata indexate, verifica daca au fost aduse modificari daca da atunci scaneaza complet din nou, daca nu atunci urmareste alte linkuri din site.
Tine cont de linkurile interne si cele externe dintr-un site (aici pot spune ca incerc sa evit linkfarm-urile prin simple limitari).
Nu tine cont de sitemap si de robots.txt, nu calculeaza si nu ofera importanta la nici un rank , deci implicit ignora si atributul "follow/nofollow" si "index/noindex".
Daca cineva blocheaza IP-ul este dreptul lui, crawlerul trece mai departe.
Scalarea, nu stiu daca este corect dar eu il denumesc "indexare", incerc sa utilizez resursele site-ului(cel indexat) la minimum fara a deranja fluxul normal al paginilor web, oricum indexarea unui site nu inseamna secunde sau minute, dupa convingerile mele o indexare corecta a unui site dureaza mai mult timp.
Caut in Romania

Avatar utilizator
mihaitha
Senior Member
Mesaje: 2383
Membru din: Vin Mai 04, 2007 12:40 pm
Localitate: Sibiu
Contact:

Mesajde mihaitha » Vin Iun 15, 2012 11:31 am

In primul rand, a ignora directivele noindex / nofollow mi se pare o tampenie, practic daca un webmaster iti spune "nu imi indexa pagina asta" tu spui "fuck off don't tell me what to do!". Nu mi se pare etica aceasta conceptie, eu unul ti-as bloca IP-ul direct. Same goes for robots.txt.

Cat despre sitemap, si aceasta este o informatie pe care trebuie sa o iei in considerare. Nu numai ca acest fisier iti da detalii despre fiecare pagina considerata relevanta de catre webmaster, dar iti si spune daca are rost sa o citesti din nou sau nu (pe baza informatiilor last_update si frequency). Daca tu reindexezi site-ul integral la fiecare crawl, generezi o gramada de trafic si procesare nedorita, iar unele site-uri (mai ales in Romania) sunt pe hosturi shared si au limita de trafic lunar. Din nou un motiv de a-ti bloca crawler-ul.

Think about it.

Avatar utilizator
Seotop
PHPRomania Supporter
Mesaje: 25
Membru din: Mie Mar 25, 2009 10:56 pm
Localitate: Brasov
Contact:

Mesajde Seotop » Vin Iun 15, 2012 2:01 pm

mihaitha scrie:In primul rand, a ignora directivele noindex / nofollow mi se pare o tampenie, practic daca un webmaster iti spune "nu imi indexa pagina asta" tu spui "fuck off don't tell me what to do!". Nu mi se pare etica aceasta conceptie, eu unul ti-as bloca IP-ul direct. Same goes for robots.txt.

Cat despre sitemap, si aceasta este o informatie pe care trebuie sa o iei in considerare. Nu numai ca acest fisier iti da detalii despre fiecare pagina considerata relevanta de catre webmaster, dar iti si spune daca are rost sa o citesti din nou sau nu (pe baza informatiilor last_update si frequency). Daca tu reindexezi site-ul integral la fiecare crawl, generezi o gramada de trafic si procesare nedorita, iar unele site-uri (mai ales in Romania) sunt pe hosturi shared si au limita de trafic lunar. Din nou un motiv de a-ti bloca crawler-ul.

Think about it.


- nofollow este un atribut care se foloseste pentru pagerank, singurul motor care foloseste acest atribut este G ,nici un alt motor yahoo, bing, blekko, yandex, baidu etc nu folosesc acest atribut.
Nici eu nu socotesc rank !!!
- sitemap este o unealta care poate fi manipulat de webmaster.
- daca ai fi citit cu atentie paginile(nu este vorba de un site intreg) sunt reindexate daca exista modificare fata de ultima indexare
- Stai linistit ca nu face ecaut.ro un trafic sa-ti cada serverul sharuit :)
- NU indexam niciodata un site intreg din alte considerente dar si traficul este luat in calcul.
- In cea ce priveste robots.txt este un lucru care va fi implementat in curind
Caut in Romania

Avatar utilizator
mihaitha
Senior Member
Mesaje: 2383
Membru din: Vin Mai 04, 2007 12:40 pm
Localitate: Sibiu
Contact:

Mesajde mihaitha » Vin Iun 15, 2012 4:58 pm

Seotop scrie:- nofollow este un atribut care se foloseste pentru pagerank, singurul motor care foloseste acest atribut este G ,nici un alt motor yahoo, bing, blekko, yandex, baidu etc nu folosesc acest atribut.
Nici eu nu socotesc rank !!!
Din toata lista care ai enumerat-o acolo, doar G (presupun ca te referi la Google) e un motor de cautare, restul sunt tentative. Depinde cum vrei sa ti-l clasifici si pe al tau...
Seotop scrie:- sitemap este o unealta care poate fi manipulat de webmaster.
Nu vad relevanta acestei afirmatii. Vroiai sa imi dai un contraargument?
Seotop scrie:- daca ai fi citit cu atentie paginile(nu este vorba de un site intreg) sunt reindexate daca exista modificare fata de ultima indexare
Adica citesti contintul paginilor deja indexate la fiecare crawl? Ai impresia ca nu generezi trafic cu asta? Glumesti...
Seotop scrie:- Stai linistit ca nu face ecaut.ro un trafic sa-ti cada serverul sharuit :)
Ai fi surprins.
Seotop scrie:- NU indexam niciodata un site intreg din alte considerente dar si traficul este luat in calcul.
De ce? Daca am un site cu toate paginile indexabile si interlink-uite, si mi-l inscriu in motorul tau, nu mi le indexezi pe toate? Bun motor, n-am ce zice! :thumbright:

Avatar utilizator
Seotop
PHPRomania Supporter
Mesaje: 25
Membru din: Mie Mar 25, 2009 10:56 pm
Localitate: Brasov
Contact:

Mesajde Seotop » Vin Iun 15, 2012 5:51 pm

pot doar sa corectez un singur lucru. cred ca nu m-am exprimat explicit din cate vad.
- NU indexam niciodata un site intreg din alte considerente dar si traficul este luat in calcul.


Indexam tot site-ul !!! dar nu la o singura "vizita" !!!
la fiecare indexare se citeste doar o parte, cateva pagini , nu se indexeaza un site dintr-un foc de la cap la coada.
Exista pagina principala, subdomenii , pagini de rang I de rang II etc..
:)


In rest cele spuse de mine nu sunt numai argumente sau contraargumente sunt lucruri care functioneaza si principii pe care le-am considerat ca trebuie sa lucreze un "motor de cautare"

Din toata lista care ai enumerat-o acolo, doar G (presupun ca te referi la Google) e un motor de cautare, restul sunt tentative.

tentative de cateve milioane. ex: http://searchenginewatch.com/article/21 ... -in-Blekko

sunt convins ca folosesti Google , dar fi sigur ca mai sunt motoare de cautare chiar bune.
pe domeniul rusesc de exemplu yandex este mai folosit de cat google
si exemplele pot continua.

P.S tentativele au sanse !!!! in rest.............. :wink:
Caut in Romania

Avatar utilizator
mihaitha
Senior Member
Mesaje: 2383
Membru din: Vin Mai 04, 2007 12:40 pm
Localitate: Sibiu
Contact:

Mesajde mihaitha » Lun Iun 18, 2012 3:33 pm

Sincer nu m-ai lamurit cu nimic, mi-ai raspuns la cele mai minore probleme si le-ai ignorat pe cele mai arzatoare. Concluzie: nu cititi robots.txt si sitemap.xml pentru ca va e lene (sau nu stiti cum) sa implementati aceste functionalitati care dupa pararea mea sunt cruciale. Drept urmare voi avea grija sa va blochez toate IP-urile de pe care imi veti face crawl.

Cat despre motoarele de cautare, valoarea unui motor de cautare pentru un user sau un webmaster nu se cuantifica in suma de bani investita, ci in relevanta rezultatelor returnate pentru un anumit query, respectiv si impactul asupra performantei. Google e cel mai putin folosit motor de cautare in China (pentru ca nu a acceptat sa fie cenzurat, drept urmare e blocat). Asta inseamna ca e naspa?

Succes cu tentativa voastra, din ce imi spui sunt sigur ca aveti sanse...

teodor98
Average Member
Mesaje: 98
Membru din: Mar Iul 17, 2012 7:08 pm
Contact:

Mesajde teodor98 » Joi Iul 19, 2012 2:03 pm

Eu cred ca ar fi o inbunatatire ca atunci cand nu exista nici un rezultat pentru cuvantul cheie respectiv sa apara rezultatele google pentru acel cuvant


Înapoi la “Motor de cautare”

Cine este conectat

Utilizatori ce ce navighează pe acest forum: Niciun utilizator înregistrat și 3 vizitatori