Re: Convertire fisier HTML in fisier XML
Scris: Vin Sep 18, 2015 12:29 am
Birkoff scrie:ia vezi daca te ajuta asta (nu am folosit dar vad in exmeplu ca are echo $element->src (unde la tine in loc de src va fi elementul id)
http://simplehtmldom.sourceforge.net/
sau asta
http://htmlparsing.com/php.html
(am dat un search dupa html parser)
Ok, ideea e ca ma folosesc de simplehtmldom sa gasesc informatia de pe o pagina sursa dintr-un anumit div class id etc. dar eu as vrea sa reduc toata pagina sursa la un document XML care sa aiba doar numele claselor si al id-urilor in tag-uri fiind mai usor sa preiau informatia din acestea. Functia find() din simplehtmldom cauta exact in div-ul pe care il dau eu dar e destul de incomod pentru ca uneori nu aleg cum trebuie div-urile si nu imi preia informatia. M-am gandit sa transpun toata pagina sursa intr-un document XML de unde sa preiau cu cURL mult mai usor informatia. Probabil exista si alte metode doar ca nu gasesc una cat mai buna.
P.S Daca incerci site-ul diffbot[dot]com iti preia exact continutul text de pe o anumita pagina a unui site si as vrea sa fac un script care sa faca acelasi lucru la o simpla scanare a site-ului. Si nu imi dau seama cum il preia cand scaneaza pagina.