PHP-Scripte PHP-Tutorials PHP-Jobs und vieles mehr

PHP-Scripte PHP-Tutorials PHP-Jobs und vieles mehr (https://www.php-resource.de/forum/)
-   PHP Developer Forum (https://www.php-resource.de/forum/php-developer-forum/)
-   -   [Script] Probleme mit file_get_contents (https://www.php-resource.de/forum/php-developer-forum/78482-script-probleme-mit-file_get_contents.html)

eLucy 26-11-2006 02:58

[Script] Probleme mit file_get_contents
 
Hallo zusammen,
ich hab versucht ein Script zu schreiben, dass mir hilft bestimmte Wiki Seiten nach bestimmten Begriffen zu durchforsten.
Ich muss noch dazu sagen dass ich recht neu bin in der PHP Programmierung, deshalb habt Nachsicht falls mein Ansatz vielleicht nicht der geschickteste ist (aber für anregungen bin ich nat. immer zu haben :))

Also was ich tue ist, ich lese den den Inhalt der Datei mit file_get_contents ein und weise Ihn einer variablen zu. Danach untersuche ich den Variableninhalt nach meinen Suchbegriffen.

Das Problem ist, dass ich oft beim Versuch die wiki Seite einzulesen diese Fehlermeldung bekomme:

Warning: readfile(http://de.wikipedia.org/wiki/Cars_%28Film%29) [function.file_get_contents]: failed to open stream: HTTP request failed! HTTP/1.0 403 Forbidden in line ...

Aber das passiert nicht jedesmal. Bei manchen Seiten funktioniert es ohne Probleme. Nämlich dann wenn die Suchbegriffe aus einem Wort bestehen. Demnach scheine ich beim generieren der Url vielleicht etwas falsch zu machen.

Die Url für den Request generiere ich durch ein Suchen - Ersetzen Muster, nach den Vorgaben die sich durch ein Nachschauen der original Wiki URL ergeben. Dort steht statt:


wikipedia.org/wiki/Cars (Film)

eine URL nach dem Muster

wikipedia.org/wiki/Cars_%28Film%29


Das steht ja dann später auch in meinem Request durch die Funktion, aber es funktioniert dennoch nicht.

Ich bin ratlos wie das zu erklären ist und hoffe jemand kann mir weiterhelfen.

Jan

eLucy 27-11-2006 16:07

Habe ich hier gegen irgendwelche Regeln verstossen mit meiner Frage?

testererer 27-11-2006 16:36

Du musst wahrscheinlich einen User Agent mitsenden. Die einfachste Methode ist wohl

PHP-Code:

ini_set("user_agent""abc"); 

falls ini_set deaktiviert ist, evtl. Unteres mal testen.

PHP-Code:

<?php
  
/** file()-Alternative bei allow_url_fopen = off
    * Eingabe: $url - Die auszulesende URL.
    * Rückgabe: Array, das alle Zeilen der auszulesenden URL enthält.
    *********************************************/
  
function socketfile($url) {
    
// URL zerlegen
    
$parsedurl = @parse_url($url);
    
// Host ermitteln, ungültigen Aufruf abfangen
    
if (empty($parsedurl['host']))
      return 
null;
    
$host $parsedurl['host'];
    
// Pfadangabe ermitteln
    
if (empty($parsedurl['path']))
      
$documentpath '/';
    else
      
$documentpath $parsedurl['path'];
    
// Parameter ermitteln
    
if (!empty($parsedurl['query']))
      
$documentpath .= '?'.$parsedurl['query'];
    
// Port ermitteln
    
$port = empty($parsedurl['port'])?80:$parsedurl['port'];
    
// Socket öffnen
    
$fp fsockopen ($host$port$errno$errstr30);
    if (!
$fp)
      return 
null;
    
// Request senden
//hier abgeänderter Code//
    
$request "GET {$documentpath} HTTP/1.0\r\n"
    
$request .= "Host: {$host}\r\n" 
    
$request .= "User-Agent: Mozilla/5.0 (Windows; U; Windows NT 5.1; en-US; rv:1.7.8) Gecko/20050511  Firefox/1.0.4\r\n\r\n"
    
fputs ($fp$request);
//hier abgeänderter Code//
    // Header auslesen und verwerfen
    
do {
      
$line chop(fgets($fp));
    } while (!empty(
$line) and !feof($fp));
    
// Daten auslesen
    
$result = Array();
    while (!
feof($fp)) {
      
$result[] = fgets($fp);
    }
    
// Socket schliessen
    
fclose($fp);
    
// Ergebnis-Array zurückgeben
    
return $result;
  }

Quelle: http://www.klamm.de/forum/showpost.p...65&postcount=3

eLucy 28-11-2006 13:49

Recht herzlichen Dank!!!

Jetzt habe ich nicht nur mein Problem gelöst, sondern habe mich auch gleich noch mit ein paar wichtigen Funktionen auseinandersetzen müssen, die ich bisher immer gemieden hatte. Aller Anfang ist eben schwer :)

Also vielen, vielen Dank für Deine Hilfe :)


Alle Zeitangaben in WEZ +2. Es ist jetzt 00:38 Uhr.

Powered by vBulletin® Version 3.8.2 (Deutsch)
Copyright ©2000 - 2021, Jelsoft Enterprises Ltd.
Search Engine Friendly URLs by vBSEO 3.3.0
[c] ebiz-consult GmbH & Co. KG