Dosya Entropisi Nedir

Dosya Entropisi Nedir
Dosya Entropisi Nedir

Video: Dosya Entropisi Nedir

Video: Dosya Entropisi Nedir
Video: Entropi Nedir? 2024, Nisan
Anonim

Herhangi bir bilgisayar dosyası baytlardan oluşur. Bir bayt, 0 ile 255 arasında değerler alabilir. Bilgi entropisi, bir dosyada belirli baytların oluşma olasılığını gösteren istatistiksel bir parametredir.

dosya entropisi nedir
dosya entropisi nedir

Bir histogram kullanarak entropi derecesini görsel olarak değerlendirebilirsiniz - aynı baytların bir dosyada tekrarlanma olasılığının dağılımı. Dosyanın entropisinden, sadece histogramını görerek önümüzde ne tür bir dosya olduğunu tahmin edebiliriz.

Gösteri için, farklı türlerde üç dosya alalım ve histogramlarını karşılaştıralım. İlki bir metin dosyası (*. TXT) olsun. Histogramı şekilde gösterilmiştir:

гистограмма=
гистограмма=

Metin dosyası yalnızca metin içerir. Metnin her karakteri, kodlama tablosuna uygun olarak belirli baytlarla kodlanır. Çok sayıda kodlama türü olmasına rağmen, genellikle 255'ten az olan sınırlı sayıda alfanümerik karakter olduğu açıktır. Bu nedenle, ilk histogramda yalnızca bazı alanlar işgal edilir ve bazı baytlar hiç doldurulmaz.

Aşağıdaki dosya PDF formatında olacaktır:

гистограмма=
гистограмма=

PDF, metin dosyalarından farklı şekilde kodlandığından, bu dosya tüm olası baytları içerir. Çok sayıda hizmet bilgisi depolar: biçimlendirme, yazı tipleri, resimler vb. Ancak histogramı, bazı baytların yaklaşık olarak eşit olasılıkla gerçekleştiğini, diğerlerinin ise diğerlerinden çok daha sık olduğunu gösteriyor. Bu nedenle histogramdaki çoklu keskin patlamalar ve genel olarak mevcut genişliğin tamamını kaplamasına rağmen oldukça "düzensiz" bir görünüme sahiptir.

Ve son dosya 7Z formatında sıkıştırılmıştır:

гистограмма=
гистограмма=

Bu histogramın iki ana özelliği vardır: ilk olarak, sıkıştırılmış dosyada tüm baytlar aşağı yukarı eşit olasılıkla (oldukça düz bir üst kenar) bulunur ve ikincisi, histogramın üzerinde neredeyse hiç boş alan yoktur, bu da neredeyse tamamen yokluğu gösterir. fazlalık böyle bir dosya. Bu nedenle, arşivleyicinin algoritmasının, maksimum tekdüze dağılımlarını elde etmek için dosyanın baytlarını özel bir şekilde "karıştırdığı" sonucuna varabiliriz.

Bu nedenle, fizikte olduğu gibi bilgisayar biliminde de entropi, sistemdeki düzensizliğin, bu durumda dosyadaki bayt dağılımındaki düzensizliğin bir ölçüsüdür. Entropi, dosyanın sıkıştırma derecesini ve - dolaylı olarak - türü hakkında karar vermenizi sağlar.

Önerilen: