9 件の投稿
すべての投稿者
• 7/19/2017

言語記述形式標準化: 概要

人工言語の辞書や文法などをコンピュータで取り扱うためのいろいろな規格を決めようと思います。基本的にこの場(ディスカッション)はメモとして気軽に使ってほしいです。全般的な意見はこの投稿への返信で行ってください
0 8
  • イイね!
  • 返信
0
• 7/28/2017
現状ですと議題が漠然としすぎて、この先の会議で何を話すのか殆ど想像できないので、主催者的には具体的に何を決めたいのか挙げていただけると助かります。それとも、この掲示板に寄せられるアイデアを基に、徐々に核となる議題を決めていく事になりますか?
0
• 7/28/2017
私も今ちょうどそのことに気付きました。議題に関しては別のトピックで取り扱うことにします。
0
• 7/28/2017
議題は辞書のデータ構造を話し合いながら決める感じです。
実際今出ているのは「例文データは単語データから分けて考えた方がいい」ぐらいです。
0
• 7/29/2017
ううん、まづは議題を明らかに、と求めた自分ですが、いざ出されたものを見ても何か腑に落ちないのは、「どんな経緯で新規格を決めたいと感じたのか」「新規格を決めて何を成したいのか」を(自分だけかもしれませんが)まだよく飲み込めてないからかな、と。一体、何をどうしたいのか。現状、PDICがある、OTMもある、そこにきて何故更に新規格なのか。よくわからないが故に興味は惹かれるのですが、やはりそのへんも改めて共有していただけないと、どうにも唐突感が否めません。

議題が各論であるなら、やはり総論やそれ以前の背景情報にあたる部分も必要でした。あるいは目的とか構想とか売りどころとかも良いかもしれません。そのあたり、先に主催者側からある程度話してくださると、議論の方向づけの面でも良いかと存じます。自分の限られた想像力だけでは目標をを見誤り、何か的を射ない話しかできない気がして若干不安なのです。(ブレインストーミング的に意見を集めるのが会議の趣旨であれば事情は別ですが)
0
• 7/30/2017
>現状、PDICがある、OTMもある、そこにきて何故更に新規格なのか

>「どんな経緯で新規格を決めたいと感じたのか」「新規格を決めて何を成したいのか」

ごもっともです。私の見解を書いていきます。

現状存在するOTM-JSONやPDIC形式は辞書データの規格です。最近は辞書アプリケーションだけではなく、表記を変換するakrantiainや、活用形を変換するシステムの提案などが出てきています。こうした状況で、それぞれのアプリケーション固有のデータ構造ではなく、汎用的で本質的な標準規格を決めて、その形式に基づいて様々なシステムが実装された方が、情報の再利用性が高まり、言語作者がそれを記述する意義も大きくなるでしょう。私が会議で纏めたいのは「言語データにおいて何が本質的か」「どうすれば汎用的なデータ構造となるか」の2点です。妥当な規格を作るためには、できる限り多くの言語や、アプリケーションの機能の要請についてブレインストーミングする必要があります。

例えば、文法の規格があればあなたのアプリケーションに文法チェックを実装しやすくなります。音声の規格があれば音声認識や音声合成に利用できます。例文の規格があれば機械翻訳が実装しやすくなるでしょうし、場合によっては、単語を1つ1つ登録していく従来の辞書編集のやり方ではなく、例文駆動で自動的に辞書が構築されていくという全く新しいやり方も可能かもしれません。それに、統一的な形式で記述されていれば言語横断的なシステムも構築しやすくなります。

それからこれは規格というより実装の問題ですが、現状ではほとんどの作業はローカルで静的に完結してしまい、それぞれの世界が閉じていると感じます。主要な辞書編集ソリューションはいずれもデスクトップアプリケーションです。あるいは、辞書項目を詳細に記述しても、わざわざ専用の辞書を開いてうまく検索しなければ辿り着けません。私のような無精からするとTwitter程度の気軽さで閲覧・編集できてほしいのです。上述のような機能を、特別なアプリケーションをインストールすることなくWeb上ですぐに利用できるようになれば、人工言語制作と学習は今よりずっと楽になり、楽しくなるはずです。

私の計画している langue.link は、いわゆるオフラインファーストなWebアプリです。ローカルで行った作業をリモートに同期するというモデルを採ります。競合管理を実装して安全に同期できるようにします(gitなどの分散型VCSが近い)。APIも提供するつもりなので langue.link 上にある言語情報をあなたのアプリケーションから利用することもできると思いますが、基本的には例文や造語を投稿するSNSみたいな感じで、気軽に利用できるようにしたいです。計画の詳細は https://github.com/yuhr/langue を見てください。
0
• 8/1/2017
すっきりと纏めていただき有難うございます。やはり、Twitterの一部にて人工言語統合開発環境として噂されてたlangueプロジェクト全体の事をもう少し前面に押し出してやると良いかもしれません。(実装部分である langue.link の話しか自分の頭にありませんでした。)構想の一覧にある「A unified schema for language description」について何か助けになる意見を出していけばよいのですね。(この文言だけ抜き出すとほぼスレタイの換言にすぎないものの、構想一覧の中に置かれると全体の中での位置づけが解りやすい。)

「言語データにおいて何が本質的か」との議題設定については少し不安な点があるのですが、また後日、今度は議題スレの方にて書いてみます。
0
• 8/1/2017
>langueプロジェクト全体の事をもう少し前面に押し出してやると良いかも

そうですね……一応、将来的な再利用性のためにも特定の実装に囚われないunopinionatedな規格を目指したいところではあるので、あまり標準化の場でlangueを推しすぎてもいけないと思うのですが、langueや langue.link の解説としては不足している部分があるということを、ご指摘を受けて感じました。GitHubの方ももう少しわかりやすく説明することができないか試してみます。
0
• 8/1/2017
> 一応、将来的な再利用性のためにも特定の実装に囚われないunopinionatedな規格を目指したいところではあるので、あまり標準化の場でlangueを推しすぎてもいけないと思うのですが

これは確かに自分も拘りたい部分です。langueシステムに特化してはなりません。

ただ、モデルケースとしてはとても重要と感ずるので、皆な自由な発想のためとてその存在を敢て矮小化する事はせずに、着想元や話の取っ掛かりとしてlangueシステムの構想を提示するのは利があるかと。OTM形式もZpDICの存在が無ければここまで認識が広まる事も無かったでせうし。
返信を入力...