2018年3月25日日曜日

[雑感] 古文書の残存率の見積もり方


「文書を数百年やそれ以上の長さで残すには」という話題を耳にしたのですが、
その際「ちなみに過去の文書はどれくらいの速さで消えていくのだろう」と気になりました。
古代史の本を読んでいると「それについては記録が残っていない」「そういう文書があったことは分かっているが、現存しない」という話をよく見かけます。

横軸を「今から何年前」、縦軸を「残存率」(=現代に残っている文章量/当時書かれた文章量)に取った両対数グラフを描くと、
おおまかにはベキ的に減衰していく気がします(紙、木簡、石版、などの媒体別の残存しやすさ、厳重保管されているか否か、などのパラメータはとりあえず無視)。
この傾きの値が分かれば、「この文書は何部コピーがばらまかれているので、○○年後までは残りそう」というようなことが見積もれそうです。

残存率をどうやって得るのかはちょっと骨が折れそうです。
たとえば「孫子」の書かれた約2500年前の文書の残存率を計算しようとすると、
分子と分母にあたる「当時書かれた文書のうち、現在に残っている文字数」と「当時書かれた文字数」を見積もらなくてはいけません。
後者は当時の人口などから見積もれそうですが、前者はどうするか。
「孫子」などの有名な文書だけでなく、遺跡から発掘された無名の文書の文字数も見積もることになるでしょう。

2018年1月29日月曜日

[雑感] 機械学習に手を出そうして別の所へ行く

ツイートしても良かったのですが、長くなったので
ブログの更新再開を兼ねてここに書くことにします。

ここ1週間、流行り物の機械学習を学ぼうかと思いましたが、
結局違うところに行ってしまいました。

流れはこんな感じ。

・機械学習の入門書を読む
・ネットで機械学習関連ライブラリの説明を読む
・Python の本を読む
・いまひとつやる気が起きない
・もうちょっと今の仕事に役立つもののほうがモチベーションが上がるはずと思う(横道に逸れ始める)
・アソシエーション分析に興味を持つ
・統計学がよく分からない
・統計学の基礎を学べる本を探している(現在進行形)

さらに、上記とは並行で

・機械学習をやるにせよ統計をやるにせよ、使うためのコーディング能力が足りていない気がする
・ただし、本を黙々と読んでコーディングするだけだと続かないだろうから、もう少しモチベーションが上がるものがないか
・競技プログラミングやオンラインジャッジに行き着く
・とりあえず AtCoder と Aizu Online Judge に登録する(いまここ)

という流れも。

どちらも、長続きするかは分かりません。
時々訪れる、ふらふらして色んなものを見て回る時期なのかもしれません。

2017年6月25日日曜日

[Debian] fcitx-mozc の初期設定

さっきの記事([Debian] uim-mozc を捨てて fcitx-mozc に乗り換えた)の続きです。
自分なりのカスタマイズを書いておきます。
ちなみに OS は Debian Linux 9 (Stretch)、デスクトップ環境は GNOME3 です。

自動起動


インストールした直後の状態では fcitx は自動起動せず、ログインするたびに

    $ fcitx &

を叩く必要があり、面倒です。

自動起動させるために設定ファイル
~/.config/autostart/fcitx.desktop (名前は適当)
を作って、中に

    [Desktop Entry]
    Type=Application
    Name=fcitx
    Exec=/usr/bin/fcitx

と記入しました。

ログインし直すと、fcitx が自動起動し、左下にキーボードのアイコンが見えます。

アイコンはすぐに最小化されてしまいますが、
画面左下端にカーソルを持っていくと「>」が表示されます。
これを一度クリックすると、常に表示されるようになります。

「変換」で入力メソッドオン、「無変換」でオフにする


「全角/半角」でトグルするのはやめて、Mac っぽくします。
これは fcitx-mozc というよりは fcitx 全体の設定のようです。

先述のキーボードのアイコン(mozc がオンの場合は mozc のアイコン)を右クリック
→ 「設定」(追記:「アクティビティ」の「fcitx 設定」からも行けます)
→ 「入力メソッドの設定」が立ち上がるので「全体の設定」タブを選択
→ 「拡張オプションの表示」にチェックを入れる
→ 「入力メソッドをオンに」の横の「空」を選択し、「変換」ボタンを押す。
→ 同様に、「入力メソッドをオフに」は「無変換」ボタンを押す。

ちなみに「入力メソッドのオンオフ」項目は触りませんでした。
本当は誤動作防止のために「空」にしておきたかったのですが、
やり方が分かりませんでした。

ユーザー辞書の引き継ぎ


データのエクスポートは既に出来ているものとします。

mozc をオンにする(上記の設定をしている場合は端末かエディタを開いて「変換」を押す)
→ 先述のキーボードのアイコンが mozc のアイコンに変わっているのを確認して右クリック
→ 「Mozc ツール」
→ 「辞書ツール」
→ Mozc 辞書ツールが立ち上がるので、「管理」を選択
→ 「新規辞書にインポート」あるいは「選択した辞書にインポート」のどちらか好きな方を選択
→ エクスポートしておいたファイルを選択。エンコードなどは「自動選択」のまま放置。

成功すれば、辞書の内容が引き継がれます。

[Debian] uim-mozc を捨てて fcitx-mozc に乗り換えた

Debian 8 (Jessie) から 9 (Stretch) にアップグレードした際に uim-mozc が不調になりました。

症状は

  • 「変換」ボタンを2回押すとクリップボードの内容がペーストされてしまう(Mac を使ってた時の名残で「変換」に「IMEオン」を割り当てているのです)
  • GUI の設定アイコンを選択しても何も起こらない
  • /usr/lib/mozc/mozc_tool コマンドを叩いても起動しないときがある

です。

いろいろいじってみましたが、自分では対処できなかったので、
これを機に fcitx-mozc に乗り換えました。
設定は以下のページを参考にしました。

2017年4月23日日曜日

Windows で PDF ファイルのサムネイルを表示させる

64bit の Windows だと PDF のサムネイルが自動表示されないので、Windows Explorer で PDF のサムネールプレビューを有効にするを参考に、以下のようにしました。

    Acrobat Reader DCを開く→「編集」→「環境設定」→「一般」→「Windows Explorer で PDF サムネールのプレビューを有効にする」のチェックを入れる→「OK」

10秒ほど、設定中の画面が出るので待ちます。
これが終わると PDF のサムネイルが表示されるようになりした。

上記は Windows 10 で動作確認しました。

2017年4月19日水曜日

Debian 9 (Stretch) で Ctrl と Caps Lock の入れ替えに Tweak Tool を使う

※注意:執筆時点で Stretch は testing なので、今後状況が変わるかもしれません。

Emacs 使いということもあって、Ctrl と Caps Lock を入れ替えて使っています。
デスクトップ環境は GNOME です。

Debian Wheezy では CapsLockをCtrlにするまとめ - Λlisue's blog のように

    「設定」→「キーボード」→「タイピング」→「レイアウトの設定」→「オプション」→「Ctrl キーの位置」→「Ctrl と Caps Lock を入れ替える」

で設定できたようなのですが、Stretch になると、「キーボード」を選択した先に「タイピング」が見つからず、キーボードショートカットの設定しかできないようです。

代わりに xmodmap を使うことも検討したのですが、GNOME Tweak Tool というツールもある(昔からあったもよう)ことも知り、こちらを使うことにしました。

手順は、

    「Tweak Tool」→「タイピング」→「Ctrl キーの位置」→「Ctrl と Caps Lock を入れ替える」

です。

変更は速やかに適用され、再起動後も有効でした。

参考: keyboard - How do I remap the Caps Lock and Ctrl keys? - Ask Ubuntu

2016年8月15日月曜日

[解決済]海外に行ったら Google 日本語入力の日付変換がずれる

今、アメリカに出張しています。

私は IME に Google 日本語入力を使っているのですが、
文章を書いていて「きょう」と入力したら、何故か翌日の日付に変換されてしまいました。
もしやと思って「いま」を変換すると、案の定、日本時間が出てきました。

これでは仕事に支障が出るので、あちこち設定を見たのですが、
タイムゾーンに関する設定は見当たりませんでした。

結局、OS (Windows 10) を再起動したら現地時間に変換するようになりました。
おそらく、Google 日本語入力だけを再起動してもそうなるのだと思います。