Appleは日本語組版が苦手?

最近,電子書籍(EPUB,HTML5/CSS)がらみで日本語組版についての議論があちこちで行われている。TeX Forumでも鎌田先生がkoTeXは日本語LuaTeXへの先導役になるか?で書いてくださっている。鎌田先生からはその後Twitterでもいろいろお教えいただいた。

和文組版の話は拙著[改訂第5版]LaTeX2e 美文書作成入門の第13章にも少し書いてあるが,Asian TeX Conference 2008の私のスライドから少し切り貼りして復習しておく。

Macの画面がWindowsより美しい理由の一つはヒラギノ書体にあるが,Pagesなどでヒラギノ明朝で横書きするとなぜかしっくりこないと鎌田先生は嘆かれる。PagesやKeynoteの画面をよく見たら,縦組用の文字が横組に使われている!

ヒラギノ明朝は縦組と横組でかなの字形がかなり違う。[2010-07-25追記:下のコメント「ヒラギノ明朝のデフォルト(縦組用)は縦横両用」参照]

自炊(本を自分でスキャン)

IPv4アドレスがもうすぐ枯渇するというが,それより先に研究室の空間が枯渇しそうになってきたので,本を少しスキャンして電子化することにした。

BOOKSCANさんをはじめとするたくさんのスキャン業者が現れたが,本を箱詰めにして運ぶ過程でまた腰を痛める可能性があるので,自分で1冊ずつスキャンしてみることにした。こういう作業を自炊というらしい。

裁断機はPK-513Lを考えたが,生協に発注したところネットよりかなり割高な上に1〜2ヶ月先の入荷という。それでは夏休みの作業ができなくなるので,1万円強で買えるこちらの商品をアマゾンで私費で買って大学に届けてもらった。

ScanSnapは数世代前のものを持っていたが紙詰まりが増えたので,最新のものを生協で買った。

ExcelのF検定

Twitterでの某先生のつぶやきがきっかけで,ググって

などをざっと見ながら,等分散の検定にある練習用データをExcel 2010で試してみた(図)。結果はExcel 2003とまったく同じ。古いExcelでは片側検定の結果を間違って両側検定と表示していたが,Excel 2003以降は正しく片側検定と表示するようになった。ただ,この場面では両側検定が普通なので,直す場所が違ったようにも思う。「P(F<=f) 片側」という書き方も微妙である。「F 境界値 片側」もよく考えないと誤解しやすい。

MacのExcel 2008でやってみようとしたら,そうだ,Mac版には分析ツールがなかったのだ:

iPadゲット

日本での発売前日にApple Storeでオンライン注文したiPadが昨日届いた。一番安いWi-Fiモデル。

至急必要なもの:ケース。SteveがMacBook Airを取り出して見せたような紙封筒でもいいか。

とりあえずiTunesを立ち上げ,iPod touchのバックアップを詰め込むが,入ったのはアプリだけで,設定やパスワード類や音楽は受け継がれない。

iPod touchのときに買ったものも含めて,主なアプリ:iBooks,Kindle,Stanza,GoodReader,TwitRocker Lite,Dropbox,AudioNoteなどなど。

Kindle Storeで買った本はiPadでも再ダウンロードして読める。Stanzaで読むO'Reillyの電子書籍もそのまま受け継がれた。PDF類はMacからDropbox経由でGoodReaderに転送して読むのが楽のようだ。ACM会員割引で入ったSafari Books Onlineも問題なく読める。

明日の出張が楽しみだ。

iPod

追記:いまダイソーに行って315円でケースを買ってきた。11インチノートPC用のソフトケース。

チャートジャンクは役立つ?

Useful junk?: the effects of visual embellishment on comprehension and memorability of charts というペーパーを教えていただいた。ACM会員でない場合は,ほぼ同じものがここに公開されている。

どこかで見た絵だと思ったら,このブログで紹介されていたのを見て,忘れていた。

Nigel Holmesのグラフィックと,Rで学生が描いたような単純なグラフとを比較して,どちらが理解しやすいか,どちらが記憶に残りやすいかを,被験者を使って調べた研究である。案の定,Holmesのグラフィックのほうが記憶に残りやすいという結果であった。

これは,チャートジャンクは少ない方がよい,データ/インク比(data-ink ratio)は大きい方がよいというTufteの主張の反証ということらしい。

しかし,実際にTufteの本を読んだ人なら,情報密度の高い,目を見張るばかりの細密な図の数々に,感銘を受けたはずだ。棒が数本並んで「増えていますよ」だけしか読み取れないグラフなど,Tufteの本にもClevelandの本にも見当たらない。

Tufteの主張は,チャートジャンクにインクを使う余裕があれば,もっと多くのデータを盛り込む工夫をせよと言い換えることができる。殺風景な魅力のないグラフを描けということではない。大量のデータでもうまく視覚化すれば何かが見えてくるということだ。

Tufteのサイトに反論が載っているか調べたが,見当たらなかった。しかし,Holmesたちの図を載せたNew York TimesのOp-Edページへのコメントが掲示板にあった:Ask E.T.: Poor op/ed data graphic in New York Times。この図では,危険性と新聞掲載回数に負の相関があるように見える。コメントにもあるようにHoward Wainerがちゃんとした散布図を描いて,関連がないことを示したが,Wainerの妻はHolmesたちの図の方が好きだと言ったそうだ。

折れ線グラフは0点に意味がない…はずだが

2010-05-13に警察庁が平成21年中における自殺の概要資料(PDF)を公開した。これを各紙が紹介している(リンクは下)。グラフがいろいろあっておもしろい。

特に朝日の折れ線グラフ「自殺者数の推移」について,Twitterで「95年までは自殺者が殆どいないのかと一瞬勘違いするよなー」というコメントが流れた。折れ線グラフは棒グラフと違って0点に意味はなく,Clevelandも各線分の傾きの絶対値が45°に近くなるように描くのがよいといったことを書いているが,確かに朝日のグラフは一瞬勘違いするかもしれない。軸線や目盛りのちょっとしたデザイン上の工夫で改善できると思うので,どなたか挑戦してみてください。私のグラフの描き方の中にもいくつか折れ線グラフの例があるが,この中にも改善を要するものがあるかもしれない。

SIGMA DP1s

昨年11月にPowerShot G11を買ったばかりなのに,昨日,SIGMA DP1s33800円で注文し,さきほど届いた。昨日の時点でアマゾン扱いジョーシンは37000円だった。価格.comの最低価格はやや高かったが今は1円刻みで上から37000円に近づいている。DP1x発売前夜で在庫一掃したいのだろうか。

このカメラの特徴は,コンパクトデジカメの筐体に一眼レフ並みの撮像素子(フォーサーズとAPS-Cの中間くらいのサイズ)を載せたこと。しかも,通常の撮像素子は各ピクセルがRGBのうち一つを担当し,残りの色は周囲から補間しているのに,このカメラの撮像素子Foveon X3は全ピクセルがRGBの3色に対応している。データ量としては3倍だ。最終的なピクセル数は2640x1760で他のコンデジと比べてかなり少ないが,この理由のためカタログ上のピクセル数は2640x1760x3=1.4Mピクセル14Mピクセルと書かれている。

純正の現像ソフトSIGMA Photo Pro(SPP)はあまり使いやすくないが,自動で色調を整える機能は優秀だ。でもAdobe Camera Raw(ACR)のほうが使いやすい。SPP(→ACR)→Photoshopがベストか。

なお,センサが大きい利点は,遠近感をボケで表しやすいことである。センサの小さなカメラでは接写時以外はボケ感を出しにくい。

[2010-05-05追記] 以上,昨日書き始めて少しずつ加筆している。

[2010-05-06追記] 友人がRICOH CX3を買った。良い選択だ(私もCXの前身のR10を持っている)。CX3とDP1sで迷ってDP1sを買ってしまった人が結局CX3を買い直した話がここに載っている。DP1sは光学ズームも接写も手ぶれ補正もなく,ユーザインターフェースは無骨で,1枚写すとしばらく待たなければいけないという酷いカメラだ。間違えて日常使うスナップカメラとして買わないように。私だけの宝物にしたい。ついでにこの掲示板にはGRD3とDP1sを両方持っている人が2人も!

[2010-05-07追記] 比較のための画像。

ひどいグラフいろいろ

最近Twitterで教えていただいたことの備忘録。

まず12月29日の「池上彰の学べるニュース」から[2010-06-05: リンク先が別内容に変わっていたのでリンクを外しました。旧内容の片鱗は下のコメントで書いていただいたリンク先に残っているようです]の写真をクリックしてよく見ていただきたい。

こういう情報操作はビジネスのグラフではよくあるようだ。有名なのが早稲田アカデミーが毎年出しているこういう感じのグラフ。ひどいグラフを集めた日本図表審査機構 [JGRO]というサイト(個人ブログ)もある。私のブログでも「3D」とか「グラフ」で検索すればいろいろ見つかる(例えばこんな驚異の3D)。

インチキグラフを揶揄したアスキーアートのPS3とWiiは有名。

3Dグラフといえば,Excelの積み重ね棒グラフに,円錐・角錐がある。これは上ほど小さく見せたいインチキグラフ作成用。CE97の発表でも取り上げたが,Pyramid Perversion - More Junk Chartsに実例がある。

ついでにとんでもない勘違いニュースの話:平均年収が300万を切ったって? それ間違いですから。ありがちな間違いなので,私の授業メモのグラフの例:賃金の分布からもリンクしておいた。

本をカメラで電子化 2

昨日の本をカメラで電子化の続き。

たくさんのJPEGファイルを結合して一つのPDFにしたい。ImageMagickconvert *.jpg hoge.pdf とすればいいと思ったが,何百枚のJPEGをメモリに読み込んだのか,他の作業ができないほど遅くなり,いくら待っても終わらないので,中断した。

次に jpeg2pdf というRubyのプログラムを試した。開発サイトは消失していたが,キャッシュに残っていたものをいただいてきてインストール。これならほぼ一瞬で数百枚のJPEGをマージしたPDFができる。やってみたが,元のJPEGファイルがやや暗かったので,ImageMagickのconvertも併用して,次のようなことをした。

mkdir hoge
for x in *.jpg; do convert $x -normalize hoge/$x; done
jpeg2pdf hoge hoge.pdf

これで約200MバイトのPDFが完成。

ただ,ScanSnapで作るPDFより読みにくい。2値画像(PNGかGIFかJBIGか…)に直してPDFにマージできたらいいのだが。そういう話は以前も書いた。Snapter(Windows専用,$49),scanR(Web),Qipit(Web)のようなソフトやサービスがあるようだ。MacかLinuxで使えるオープンソースのものがあればいいのだが。

カメラをマウントする方法も改良を要する。例えばこんな方法とか。

[2010-04-04追記] ハードウェアについては,コメントで教えていただいた マインドストームNXTで作る自動ページめくりブックスキャナ はすばらしい。ほかには corrugate iPhone document scanner - free template! というのも見つけた。

ソフトウェアについては,Javaで書かれていてMacでも使える Cam to Scan というシェアウェアを見つけて試してみたが,あまりしっくり来ない。やはり本命は Snapter かというわけで渋々Windowsを立ち上げて試してみたが,使い方が悪いのか,グニャグニャになってしまう。

やっぱりオープンソースでないと不具合があっても中を見て調整することもできない。というわけで Scanning and Photocopying Documents With a Digital Camera のシェルスクリプトを参考にして,次回は自前で工夫してみよう。

これを卒業研究にしてくれる学生いませんか?

[2010-04-04追記2] 上の convert の使い方を少し手直しして for x in *.jpg; do convert -colorspace gray -quality 40 $x -normalize -level 40,60% hoge/$x; done のようにすると格段と見やすくなった。数値は適宜調整する。

[2010-04-04追記3] HoverCamという製品を見つけた。これを買えば解決なのか。日本ではまだ売っていないようだ。

[2010-05-14追記] Willard Cope BrintonのGraphic Methodsというすばらしい本をスキャンしたものがArchive.orgにある(使用カメラはCanon 5D)。同じ本の一部をコンデジFinePix F100fdで見開きごとに撮影したものがFlickrにある。比較するとおもしろい。

コンテンツの配信