PHP-Scripte PHP-Tutorials PHP-Jobs und vieles mehr

PHP-Scripte PHP-Tutorials PHP-Jobs und vieles mehr (https://www.php-resource.de/forum/)
-   PHP Developer Forum (https://www.php-resource.de/forum/php-developer-forum/)
-   -   Suchen und Textbereich auslesen (https://www.php-resource.de/forum/php-developer-forum/101238-suchen-und-textbereich-auslesen.html)

TommyD 21-02-2011 20:20

Suchen und Textbereich auslesen
 
Hallo zusammen,

ich suche jetzt seit Tagen eine Lösung für ein Problem.

Ich bin dabei eine Suchfunktion für meine HP zuschreiben. Wenn der Suchbegriff gefunden wurde, soll der gesamte Satz oder Textabschnitt drum herum ausgelesen werden.

Kann mir da jemand einen Tipp geben?

Ich habe schon

PHP-Code:

$pos strripos($string$suchstring);
$rest substr($string$pos-50150); 

probiert, dass trennt aber auch brutal mitten im Wort. Ich denke, da gibt es was eleganteres, kenne mich aber nicht so gut mit den regulären Ausdrücken aus. :dontknow:

Besten Dank im Voraus.

fireweasel 21-02-2011 23:12

Zitat:

Zitat von TommyD (Beitrag 651291)
Hallo zusammen,

ich suche jetzt seit Tagen eine Lösung für ein Problem.

Ich bin dabei eine Suchfunktion für meine HP zuschreiben. Wenn der Suchbegriff gefunden wurde, soll der gesamte Satz oder Textabschnitt drum herum ausgelesen werden.

Kann mir da jemand einen Tipp geben?

...
Ich denke, da gibt es was eleganteres, kenne mich aber nicht so gut mit den regulären Ausdrücken aus.

Nun, du müsstest schon die Art des Textes näher beschreiben (hoffentlich kein HTML). Wenn Satzanfänge und -enden und Abschnitt-Trenner konsistent gestaltet sind, könnte man sicher einen RegEx bauen, der die erkennt.

TommyD 22-02-2011 06:52

Guten Morgen,

der Text kann alles Mögliche sein. HTML höchstens wenn per BBCode ein Hyperlink vorkommt.
Normalerweise wären die Begrenzer um einen Text herum der Punk vor und am Ende des Satzes.
Ansonsten eben die normalen Textinhalte einer Homepage.

Danke schon mal für die Antwort.

Gruß Thomas

fireweasel 28-02-2011 13:53

Zitat:

Zitat von TommyD (Beitrag 651311)
Guten Morgen,

der Text kann alles Mögliche sein. HTML höchstens wenn per BBCode ein Hyperlink vorkommt.

Irgendwelches Markup-Zeug im Fließtext kompliziert meist die saubere Erkennung. Wir ignorieren daher die BBCode-Bestandteile erstmal. ;)

Zitat:

Normalerweise wären die Begrenzer um einen Text herum der Punk vor und am Ende des Satzes.
Das ist zwar der Standard, macht aber eben Schwierigkeiten, wenn typografisch korrekte Abkürzungen mit Punkten verwendet werden, wie "Dr.", "F. D. P." und ähnliches. Außerdem gehe ich mal davon aus, dass auch Frage- und Ausrufezeichen Sätze beenden dürfen.

PHP-Code:

/// return array() | NULL
function search(
    
$needle/// string to search for
    
$haystack/// string to search in
    
$type /// 0: sentences 1: paragraphs
) {
    if (!
is_string($needle) || !is_string($haystack)) {
        return 
NULL;
    }

    
$pcre sprintf(
        
// wichtig: keine Option /x verwenden, da preg_quote() anscheinend
        // Leerzeichen nicht escaped
        
$type === 1
            
// Absaetze
            
'/(?:\A|(?:\r?\n){2,})\s*\K(?:[^\r\n]|\r?\n(?![\r\n]))*?(%s)'.
              
'(?:[^\r\n]|\r?\n(?![\r\n]))*?(?=(?:\r?\n){2,}|\s*\z)/is'

            
// Saetze
            
'/(?:\A|[.!?]\s)\s*\K(?:(?:[^.!?]|[.!?](?!\s))*?)(%s)'.
              
'(?:.*?(?:[.!?](?=\s|\z)|\z))/is',
        
preg_quote(trim($needle), '/')
    );
    return (bool) 
preg_match($pcre$haystack$hits) ? $hits NULL;


Falls der Suchstring ($query) entsprechende Satz- oder Absatz-Trennzeichenkombinationen enthält, werden beide (Ab-)Sätze gefunden.

Wie schon erwähnt, machen Abkürzungen mit Punkten Schwierigkeiten, wenn die Satz-Ende-Erkennung benutzt wird.

Man kann das umgehen, wenn man den zu durchsuchenden Text ($haystack) so präpariert, dass Satz-Enden sich von Abkürzungen mit Punkt unterscheiden. Ein gängiges Verfahren dazu ist, nach einem Satz-Ende-Punkt, mindestens zwei Leerzeichen zu setzen.

Der andere Weg wäre, dem RegEx die Erkennung aufzubürden, das könnte mit Abkürzungen funktionieren, bei denen nur Einzelbuchstaben vorkommen ("F. D. P.").

Bei mehr Buchstaben (wie "Dr.", "Prof.") bräuchte man dann zusätzlich eine Liste der Strings, die Abkürzungen darstellen, weil es (wenn auch selten) Sätze gibt wie "Oh.", die keine Abkürzungen sind. Spätestens da stoßen reguläre Ausdrücke an ihre Grenzen.


Alle Zeitangaben in WEZ +2. Es ist jetzt 17:31 Uhr.

Powered by vBulletin® Version 3.8.2 (Deutsch)
Copyright ©2000 - 2019, Jelsoft Enterprises Ltd.
Search Engine Friendly URLs by vBSEO 3.3.0
[c] ebiz-consult GmbH & Co. KG