日本語の文書はUnicodeBlockのどの辺を使って書かれているのかを適当に確認してみたりしたので、その結果とかを貼ってみる。
Unicodeの文字のブロックに触れてみる
http://www.mwsoft.jp/programming/munou/unicode_block_java.html
結論は、だいたい「BASIC_LATIN」、「CJK_UNIFIED_IDEOGRAPHS」、「HIRAGANA」、「KATAKANA」、「CJK_SYMBOLS_AND_PUNCTUATION」の5つかなぁみたいな。