Problem bei MD5-Dateivergleich bei *.gz-Dateien

Einklappen
X
 
  • Filter
  • Zeit
  • Anzeigen
Alles löschen
neue Beiträge

  • Problem bei MD5-Dateivergleich bei *.gz-Dateien

    Hallo!

    Ich mache auf meinem Webspace täglich einen MySQL-Dump, der durch ein Shellscript erstellt und anschließend mit Gzip komprimiert wird. Um nicht zu viel Speicher dafür zu benutzen, wollte ich mir nun ein PHP-Script schreiben, das diese Dateien dann über einen durch die PHP-Funktion md5_file() erzeugten Hashwert vergleicht, um Dubletten zu vermeiden. Bei einem Testlauf musste ich jedoch feststellen, dass gleiche Dateien u.U. nicht den gleichen Hashwert haben. Die Dateien unterschieden sich dabei lediglich im Dateinamen der (nicht komprimierten) *.sql-Datei, wobei die Länge des Dateinamens identisch ist.

    Daher habe ich nun versucht, den Inhalt der komprimierten Datei zuerst mit gzread() auszulesen und dann mit md5() den Hashwert zu ermitteln. Dies führte jedoch auch zu verschiedenen Werten.

    Nun weiß ich nicht mehr, was ich noch versuchen könnte. Hat jemand anderes vielleicht noch eine Idee?


    MfG
    Pascal
    Interessantes aus den Themenbereichen Computer, Internet und Programmierung unter
    http://www.it-blog.net

  • #2
    kann dir nur n lesetipp geben - vielleicht steht da ja irgendwo die lösung:

    http://www.selfphp.info/kochbuch/kochbuch.php?code=77

    viel glück...
    **********
    arkos
    **********

    Kommentar


    • #3
      Sicher, dass die Dateien komplett identisch sind?
      Für gewöhnlich schreiben Backup-Skripten z.B. das Datum oben als Kommentar in den Dump...

      Ein netter Guide zum übersichtlichen Schreiben von PHP/MySQL-Code!

      bei Klammersetzung bevorzuge ich jedoch die JavaCoding-Standards
      Wie man Fragen richtig stellt

      Kommentar


      • #4
        Ja, da bin ich mir sicher. In meinem Testlauf habe ich die gleiche Datei unter zwei verschiedenen Dateinamen gespeichert und anschließend mit Gzip komprimiert. Die Hashwerte waren jedoch trotzdem unterschiedlich!
        Interessantes aus den Themenbereichen Computer, Internet und Programmierung unter
        http://www.it-blog.net

        Kommentar


        • #5
          Dann hast du wohl irgendwas falsch gemacht *zuck*
          Habs gerade ausprobiert, zwei Dateien, zwei Namen, gleicher Inhalt, gleiche Checksumme.


          [edit]
          Vielleicht speichert GZIP das Datum der Datei, die drin ist, mit ab?!
          Bilde halt die Checksumme über die ungezippte Datei.

          Ein netter Guide zum übersichtlichen Schreiben von PHP/MySQL-Code!

          bei Klammersetzung bevorzuge ich jedoch die JavaCoding-Standards
          Wie man Fragen richtig stellt

          Kommentar


          • #6
            Mittlerweile bin ich auf das Problem gestoßen, das das Fehlverhalten verursacht hat. Ich habe bei gzread() als Paramter für die Länge 100.000 angegeben. Dadurch wurde nur ein Teil des Inhalts ausgelesen, was natürlich auch einen anderen Hashwert zur Folge hat.
            Nachdem ich auf php.net unter http://de.php.net/manual/de/function.gzread.php eine entsprechende Vorgehensweise zur Ermittlung der Länge gefunden und diese eingebaut habe, funktioniert es nun problemlos.

            Danke für eure Mühe!


            MfG
            Pascal
            Interessantes aus den Themenbereichen Computer, Internet und Programmierung unter
            http://www.it-blog.net

            Kommentar

            Lädt...
            X