String druchsuchen und ggf. teile davon entfernen

**MelloPie** · 16.12.2008, 06:33

um die Zahl und das Datum zu entfernen benutzt Du am besten einen regulären ausdruck.
*123.456.789 entspricht dann etwa sowas \*?[0-9\.]{9,11}
Wobei Du hier auch das Datum treffen kannst, also würde ich das Datum zuerst behandeln oder Du verfeinerst den Ausdruck
Das Datum ist auch einfach, es steht immer in den klammern und hat immmer das gleiche Format oder es steht immer am schluss und ist immer gleich lang, dann kannst Du auch nur mit substr($str,-20,19) und ähnlichen Funktionen arbeiten

**medium22** · 16.12.2008, 16:29

Hallo,

Punkt 3 (Datum raussuchen) habe ich nun gelöst - die verarbeitung zum Timestamt ist dann nur noch Kleinkram..

PHP-Code:


$ohnename = explode(":", $ntrennen, 2);

$laenge = strlen($ohnename[1]);

$start = $laenge - 21;

$datum = substr($ohnename[1], $start, 21);

Punkt 2 (Nummer suchen) bereitet mit aber weiterhin Probleme. Der vorgegebene preg_match (danke übrigens dafür) funktioniert nur dann korrekt, wenn im Text davor keine Zahlenreihe/handgeschriebenes Datum auftaucht. Zugegeben, daran habe ich auch nicht gedacht bzw. es nicht beachtet. Wenn im Text nun also zb. ein 19.12.2008 vorkommt schnappt sich das der regex und gibt es mir als Nummer zurück. Ich muss zugeben, RegEx ist für mich ein Buch mit zu vielen Seiten und das Thema ist bekanntlich nicht ohne. Kann man diesen noch mehr 'einschränken' und/oder einen genaueren 'Filter' geben den er zu beachten hat?

Gruss

**medium22** · 16.12.2008, 19:06

Die Not macht erfinderisch

Da ich mit RegEx wie bereits gesagt auf Kriegfuss stehe habe ich mir versucht anders zu helfen - in der Tat sogar erfolgreich, auch wenns nicht optimal ist.

Das ganze mal gepostet:

PHP-Code:


$text = "NAME1: TEXT-23.11.2008-TEXT *644938548 (14.12.2008 19:21:22) \n 

NAME2: TEXT-TEXT-TEXT *438.832.192 MEHR TEXT (02.12.2008 19:37:37) \n 

NAME3: TEXT-TEXT-TEXT 509.687.198 MEHR TEXT (29.09.2008 16:08:54) \n

 NAME4: TEXT-TEXT (15.08.2008 16:46:23)"

$zeile = explode("\r\n", $text); // Zeilenumbrüche entfernen

foreach ($zeile AS $ntrennen) {

    $ohnenick = explode(":", $ntrennen, 2); // NAME entfernen

    $pattern = '#\*?[0-9\.]{9,11}#is';  // Nach Nummer suchen

    $result = preg_match_all($pattern, $ohnenick[1], $subpattern);

    $anzahl = count($subpattern, TRUE);

    foreach ($subpattern[0] AS $inhalt) {

        $unerlaubt = array("*"=>"", "."=>"", ":"=>"", "("=>"", ")"=>"", " "=>""); 

        $nr = strtr($inhalt, $unerlaubt);  // Unterlaubte Zeichen aus Nummer entfernen

        $laengezahl = strlen($nr);

        if ($laengezahl < '9' || $nr == $nummer) { // Prüfen ob Nummer auch 9 Zeichen enthält, sonst verwerfen

            unset($nr); 

        }

        else {

            $nummer = $nr;

        }

    }

    $laenge = strlen($ohnenick[1]);  // Stringlänge ermitteln

    $start = $laenge - 21;  // Startposition für substr ermitteln

    $datum = substr($ohnenick[1], $start, 21);

    echo "$ohnenick[1] <br /><b>NR:</b> $nummer <br /><b>Datum:</b> $datum<br /><br />";

    unset($nummer);

}

Mit Sicherheit überarbeitungswürdig - wenn man von RegEx mehr verstehen würde. *g*

**MarkusW** · 19.12.2008, 10:38

hier mal mit RegEx:

PHP-Code:


$str = 'NAME1: TEXT-TEXT-TEXT *644938548 (14.12.2008 19:21:22)

NAME2: TEXT-TEXT-TEXT *438.832.192 MEHR TEXT (02.12.2008 19:37:37)

NAME3: TEXT-TEXT-TEXT 509.687.198 MEHR TEXT (29.09.2008 16:08:54)

NAME4: TEXT-TEXT (15.08.2008 16:46:23)';



// parse lines               1:text     2:day   3:month  4:year  5:hour  6:min    7:sec

if (preg_match_all('@^.+?:\s*(.*?)\s*\((\d{2})\.(\d{2})\.(\d{4}) (\d{2}):(\d{2}):(\d{2})\)\s*$@m', $str, $hits)) {

    for ($i = 0; $i < count($hits[0]); $i ++) {

        // parse number   1:text1     2:number                3:text2

        if (preg_match('@^(.*?)\s*\*?(\d{3}\.?\d{3}\.?\d{3})\s*(.*?)$@', $hits[1][$i], $sub)) {

            $text = trim($sub[1].' '.$sub[3]);

            $number = intval(str_replace('.', '', $sub[2]));

        }

        else {

            $text = $hits[1][$i];

            $number = 0;

        }

        $timestamp = mktime($hits[5][$i],$hits[6][$i],$hits[7][$i],$hits[3][$i],$hits[2][$i],$hits[4][$i]);



        echo '$text: '.$text.'<br />';

        echo '$number: '.$number.'<br />';

        echo '$timestamp: '.$timestamp.'('.date('Y-m-d H:i:s', $timestamp).')<br /><br />';

    }

}

edit: blöderweise nimmt das forum alle backslashes raus. du musst dir in den ausdrücken vor jedem "d" und "s" einen vorstellen und an der stelle wo zwei "*" aufeinander folgen vor dem zweiten. Außerdem gehören bei (\d{3}\.?\d{3}\.?\d{3}) vor den punkten, muss aber in dem fall nicht sein.

edit2: anscheinend nur in dem php-block. also hier die ausdrücke:
'@^.+?:\s*(.*?)\s*\((\d{2})\.(\d{2})\.(\d{4}) (\d{2})

\d{2})

\d{2})\)\s*$@m'
'@^(.*?)\s*\*?(\d{3}\.?\d{3}\.?\d{3})\s*(.*?)$@'

String druchsuchen und ggf. teile davon entfernen