FANDOM


概要 編集

hah圧縮 (hah compress) とは、長大語を短縮するために考案された圧縮法である。名前の由来は、情報科学で使われる「ハッシュ(hash)関数」の「ハッシュ」をhah圧縮法で圧縮した結果である。応用の範囲が広いため、工学的な手法を好む者が改良案や発展的な方法を提案しているため、時々話題に挙がる。

オリジナルの手法については ponta氏による投稿 を参照のこと。

種類 編集

オリジナルの手法に加え、それを拡張した様々な手法が考案されている。

オリジナルの手法 編集

  1. 圧縮したい文字列を N (≧3) 文字ごとに区切る。
  2. 区切った部分文字列それぞれに対し、最初と最後の文字のみを取り出し、それ以外の文字は削除する。
  3. 取り出した文字を繋ぎ合わせる。
  4. 完成した文字列が言語の音韻構造に合わない場合は、手順 2 において削除した文字列内の母音字や子音字を適宜補う。

例1:

  • jugemujugemugokounosurikire (寿限無寿限無 五劫の擦り切れ)

を圧縮する。 区切りの長さは N=4 とする。

  1. juge / muju / gemu / goko / unos / urik / ire
  2. je / mu / gu / go / us / uk / ie
  3. jemugugousukie
  4. (上記の文字列は日本語として発音可能なのでこの手順を行う必要はない)

例2:

  • ryuuguunootohimenomotoyuinokirihazusi

を圧縮する。 区切りの長さは同様に N=4 とする。

  1. ryuu / guun / ooto / hime / nomo / toyu / inok / irih / azus / i
  2. ru / gn / oo / he / no / tu / ik / ih / as / i
  3. rugnoohenotuikihasi
  4. gn の部分が日本語で発音不可能なので、この部分に相当する圧縮前の guun から u を補い rugunoo~ とする。

ランダム hah 圧縮 編集

  1. 圧縮したい文字列をランダムに並び替える。
  2. 以下、並び替えた文字列に対してオリジナルの手法を施す。

ソート型 hah 圧縮 編集

  1. 圧縮したい文字列のそれぞれ文字に対して、その位置を表す数を与えてペアにする。
  2. 文字に関して何らかの順序 (辞書順など) でソートを行う。
  3. ソートした文字列にオリジナルの手法を施す (音節構造に合わせて文字を補うことはしない)。
  4. 手順 1 で各文字に与えた数に関してソートを行う。
  5. 完成した文字列が言語の音韻構造に合わない場合は、適宜文字を補う。

例:

  • gokounosurikire

を圧縮する。 文字のソートはラテン文字順とし、区切りの長さは N=4 とする。

  1. g0 o1 k2 o3 u4 n5 o6 s7 u8 r9 i10 k11 r12 e13
  2. e13 g0 i10 k2 k11 n5 o1 o3 o6 r9 r12 s7 u4 u8
    1. e13 g0 i10 k2 / k11 n5 o1 o3 / o6 r9 r12 s7 / u4 u8
    2. e13 k2 / k11 o3 / o6 s7 / u4 u8
    3. e13 k2 k11 o3 o6 s7 u4 u8
  3. k2 o3 u4 o6 s7 u8 k11 e13 → kouosuke
  4. (上記の文字列は日本語として発音可能なのでこの手順を行う必要はない)

広告ブロッカーが検出されました。


広告収入で運営されている無料サイトWikiaでは、このたび広告ブロッカーをご利用の方向けの変更が加わりました。

広告ブロッカーが改変されている場合、Wikiaにアクセスしていただくことができなくなっています。カスタム広告ブロッカーを解除してご利用ください。

FANDOMでも見てみる

おまかせWiki