Вот задача для филологов: собрать полный набор всех возможных интонаций. Допустим, мягкий, осторожный, встревоженный, возбуждённый, вопрошающий и прочее. Тогда можно будет расставлять маркеры интонаций, маркеры голосов (для многоголосой озвучки), а нейросеть идеально всё зачитает. А чтобы проще было, нейросеть пройдёт первым проходом и расставит маркеры, а человек только подправит, если нужно. И идеальная озвучка огромных массивов текста будет доступна.