Text-Spracherkennung

Einklappen
X
 
  • Filter
  • Zeit
  • Anzeigen
Alles löschen
neue Beiträge

  • Text-Spracherkennung

    Aloha,

    ich möchte mit Hilfe von PHP automatisch erkennen in welcher Sprache ein Text ist (deutsch oder englisch).

    Nun benötige ich einige Ansätze, wie ich so etwas am besten realisieren kann.

    Wie würdet ihr vorgehen?

    Vielen Dank für die Unterstützung im voraus.

    Gruß,
    Tiff
    Mein Projekt: Online Rechtschreibkontrolle (basierend auf PHP)

  • #2
    der einfachste weg wärte imho über die artikel. the bzw. der, die, das

    gruß
    peter
    Nukular, das Wort ist N-u-k-u-l-a-r (Homer Simpson)
    Meine Seite

    Kommentar


    • #3
      Original geschrieben von Kropff
      der einfachste weg wärte imho über die artikel. the bzw. der, die, das

      gruß
      peter
      OffTopic:
      Das heißt nicht "stirb Bart stirb". Das ist deutsch und heißt "die Bart die".
      Sunshine CMS
      BannerAdManagement
      Borlabs - because we make IT easier
      Formulargenerator [color=red]Neu![/color]
      Herkunftsstatistik [color=red]Neu![/color]

      Kommentar


      • #4
        hat ja keiner behauptet, dass man einfach aufs erste vorkommen achten soll.

        Ist sicher ein etwas komplexerer Parsingvorgang.

        Zuverlässig wird es auch nur entweder mit
        a) einer großen Keyword-Datenbank, oder
        b) mit einem großen Text
        funktionieren.

        Kommentar


        • #5
          Würde ich auch so machen. Da es die auch im Englischen gibt, würde ich das außen vor lassen und stattdessen nicht nur auf Artikel beschränken.
          Vergleiche die Häufigkeit von der, das, ein, eine, einer, einen, einem mit der Häufigkeit von the, a, you, your, yours ...

          Die beste Lösung wäre pspell() - einmal mit deutschen, einmal mit englischem Wörterbuch. Aber das ist deutlich aufwändiger und mit obiger Methode dürfte die Fehlerrate fast Null sein.

          Kommentar


          • #6
            ganz ehrlich: lies die header info aus bzw. meta Informationen. Denn wenn eine Deutsche Seite was englisches zitiert, was willste dann machen?
            Sunshine CMS
            BannerAdManagement
            Borlabs - because we make IT easier
            Formulargenerator [color=red]Neu![/color]
            Herkunftsstatistik [color=red]Neu![/color]

            Kommentar


            • #7
              Original geschrieben von Benny-one
              ganz ehrlich: lies die header info aus bzw. meta Informationen.
              Klar, wenn die ganzen Freaks da zuverlässige Daten liefern würden.

              Denn wenn eine Deutsche Seite was englisches zitiert, was willste dann machen?
              Dann wäre sowieso beides korrekt. also ist egal, welches Ergebnis raus kommt.

              Kommentar


              • #8
                Original geschrieben von TobiaZ
                Klar, wenn die ganzen Freaks da zuverlässige Daten liefern würden.

                Dann wäre sowieso beides korrekt. also ist egal, welches Ergebnis raus kommt.
                Hmm, will man die Seite oder die Webseite mit der Sprache erkennen, das ist die Frage.
                Und selbst wenn: es gilt nur eine Sprache. Ein Zitat darf nicht gleich die Seite auf "englisch" setzen imho.
                Sunshine CMS
                BannerAdManagement
                Borlabs - because we make IT easier
                Formulargenerator [color=red]Neu![/color]
                Herkunftsstatistik [color=red]Neu![/color]

                Kommentar


                • #9
                  Ein Zitat darf nicht gleich die Seite auf "englisch" setzen imho.
                  Das ist richtig, aber es sollte idR. auch geringer ausfallen als der Rest.

                  Kommentar


                  • #10
                    Danke für die schnelle Hilfe.

                    Über pspell ist eindeutig zu aufwändig und auch eine nicht sehr schnelle Lösung.

                    Das Ergebnis soll nicht 100 % korrekt sein, denn der User wird am Ende sowieso gefragt ob sein Text wirklich in dieser Sprache ist.

                    Ich denke über die Artikel und über die Umlaute werde ich eine Lösung finden.

                    Gruß,
                    Tiff
                    Mein Projekt: Online Rechtschreibkontrolle (basierend auf PHP)

                    Kommentar

                    Lädt...
                    X