小池(仮)的非日常2009年4月



4月18日(土)

赤紙

5/2に,こいけを札幌に召喚しようと画策した人がいる。しかし能わず。

高速1000円を利用して青森まで,そっからはフェリーで北海道上陸,そのまま道内をぐるっと1周という妄想を3月頃にしていたのだが,駆け込み需要のおかげでETCを入手することが出来なくなりそうだったので,計画を白紙にしていた。実生活でよろしくない案件が出てきたのも大きな理由の一つ。

GWに北海道に行きたいなぁと毎年思うけど毎年実現できていないなぁ(苦笑)。やる気がないとかそういうことでは決して以下略

配列

世の中には配列がたくさんある。それぞれメリットデメリットがあるから自分にあったものを作ろうとしてしまうのだろう。ソフトウェアレベルでのカスタマイズが容易になって気軽に作れるようになったのも大きい。

いずれの場合も,サンプルとなる文章を用意し,頻出の文字や文字列を解析しておき,それが入力しやすいような配列を作り込むことが一般的である。同手跳躍や同指異鍵をなるべく避け,両手による交互打鍵率を上げるのが目標。

ここまで前置きである。

以前からこいけが疑問に思っていたのは,そのサンプルとなる文章だ。日本国憲法等の文章を使う人が多いような気がしている。他の配列と比較する上では一般的なサンプルであることが必要なのかもしれないが,作り込みの上では自分の入力する文章をサンプルにした方が有利なのは明らかだ。

#似たような話は漢直でもあって,新聞から文字の頻度表を作ると,日常ではよく使うはずなのに新聞に出てきづらい漢字(例:僕)はとんでもないところに配置されてしまったりする。

となれば,自分の入力した文章について解析してみたくなるものだ。なりますよね? ならない? あぁそうですか。

サンプルとなる文章は,主に下記2つ。

  • ここ5年以上で書き殴ったチャットログ。こいけがPCを触る上で一番多く文字を入力する場面でもある。チャットなので基本的にスラングが多かったりチャットならではの言い回しが多かったりする。4.8M。
  • ここn年以上書き殴った日記+TDQやり込みレポート。ある程度固い文章(これで固いのか!?)。1.4M。

本当は職場で入力した文(主にメール等)があればもっとよかったのだが,ログの取得がいろんな意味で難しいので省略。

解析方法についてはこのあたりを参考に,2-gramまで回してみた。概略としては,ログから自分の入力した文字列のみを取り出し,すべて平仮名に変換したあと解析する。

解析結果を見ると,上記2つのログの差異が思ったよりも大きいことが分かった。例えば「なん」という文字列は,チャットではトップ10に入ってくるくらい頻出なのだが,日記では71位である。

何を参考(サンプル)にして判断していいか分からなくなった。