unicode

標籤

貢獻30

346

04:48 PM · Nov 21 ,2025

tosmile 頭像

invalidnull 頭像

amc 頭像

qinchuan_5d6e16e8918fd 頭像

import_hello 頭像

ddup365 頭像

yannislee 頭像

tomson 頭像

q_bit 頭像

adamcjm 頭像

javatrip 頭像

@tosmile

暱稱浪遏飛舟

Last seen
@invalidnull

暱稱註銷

Last seen
@amc

暱稱amc

Last seen
@qinchuan_5d6e16e8918fd

暱稱秦川

Last seen
@import_hello

暱稱import_hello

Last seen
@ddup365

暱稱specialcoder

Last seen
@yannislee

暱稱yannisLee

Last seen
@tomson

暱稱Tomson

Last seen
@q_bit

暱稱qbit

Last seen
@u_16099234

暱稱技術筆耕者

Last seen
@adamcjm

暱稱Adam

Last seen
@javatrip

暱稱Java旅途

Last seen

@unicode / 博客 RSS 訂閱

kumenderiguangdeng 頭像

Mar 06 2022

扒手莫扎特 - Golang-unicode

//對字符串中漢字數量進行統計 //unicode.Is（） package main import ( "fmt" "unicode" ) //Han表示漢字，其它語言表達可在字符集中查詢 func main() { a := "すごい，今天你pass了English考試" count := 0 for _, v := range a {

sctec 頭像

Mar 08 2021

樑柱 - 簡述字符集與編碼

由於計算機內部只能識別和處理二進制代碼，所以字符都必須按照一定的規則用一組二進制編碼來表示。在學習編碼之前，需要先了解一下字符集與編碼的關係：字符集(Character Set)是字符的集合，定義系統能處理哪些字符；編碼(Encoding)則規定這些字符在計算機內部的表示方式。字符編碼ASCII碼（編碼字符集）目前，國際上普遍採用的一種字符系統是7位二進制編碼的ASCII碼，它可

utf-8 , ascii碼 , unicode , url

guyu_5d2e806c57ac8 頭像

May 18 2021

darjun - 你不知道的 Go 之 string

簡介字符串（string）是 Go 語言提供的一種基礎數據類型。在編程開發中幾乎隨時都會使用。本文介紹字符串相關的知識，幫助你更好地理解和使用它。底層結構字符串底層結構定義在源碼runtime包下的 string.go 文件中： // src/runtime/string.go type stringStruct struct { str unsafe.Pointer len int

utf-8 , youdontknowgo , string , unicode , go

apollo008star 頭像

Aug 06 2024

apollo008 - C++-Unicode字符utf8編碼與碼點code point值互轉編碼示例

#include locale #include codecvt #include cassert #include string #include vector /* *注意這裏必須用std::codecvt_utf8char32_t和std::wstring_convertstd::codecvt_utf8char32_t, char32_t， *含義是將utf8編碼的字節字符串轉化為

STL , utf-8 , wstring , unicode

zmh929 頭像

Aug 28 2019

Zhanghouhou - 字符集詳解

字符集相關的概念字符集編碼 charset 是 character set 的簡寫，即字符集。 encoding 是 charset encoding 的簡寫，即字符集編碼，簡稱編碼。編號編碼字符 – 編號 – 編碼編號不涉及具體使用多少字節來表示、是用定長還是變長方案等細節問題。編號僅僅是一個抽象的概念，將具體字符映射到一個唯一的code上，是把字符數字化的一個過程。

utf-8 , 字符編碼 , unicode

wonfody 頭像

Feb 19 2021

Wonfody - JS技巧 - Canvas中繪製特殊字符

在canvas中繪製特殊符號，最簡單也最實用的方式就是使用字符，以 fillText 的方式進行繪製。當然如果對特殊符號的樣式有特殊要求，使用圖片也是不錯的選擇。這裏只介紹字符繪製方式。方案一：代碼中直接使用特殊字符以win10系統為例，在代碼輸入過程中（切換為中文）可以點擊候選詞後面的笑臉圖標，打開特殊字符選擇面板：在彈出面板中選擇你需要的特殊字符即可自動鍵入到代碼中：下面

符號 , 字符編碼 , canvas , unicode

codelogs 頭像

Apr 18 2022

扣釘日記 - 字符編碼解惑

原創：打碼日記（微信公眾號ID：codelogs），歡迎分享，轉載請保留出處。簡介現代編程語言都抽象出了String字符串這個概念，注意它是一個高級抽象，但是計算機中實際表示信息時，都是用的字節，所以就需要一種機制，讓字符串與字節之間可以相互轉換，這種轉換機制就是字符編碼，如GBK，UTF-8 所以可以這樣理解字符串與字符編碼的關係: 字符串是一種抽象，比如java中的String類

utf-8 , 字符編碼 , unicode

vivo_tech 頭像

Aug 16 2021

vivo互聯網技術 - 計算機字符編碼的前世今生

一、前言有人丟給你下面這張圖，如果你能清楚地説明它們之間的關係以及用途，那麼你對字符編碼的理解肯定過關了。不知道看了上面這張圖，是否有混亂的感覺，本文試着給你梳理、講透這些孤立的幾個單詞之間聯繫...... 二、關於字符編碼，你所需要知道的 2.1 ASCII（寡頭壟斷時期）計算機內部，所有信息最終都是一個二進制值。每一個二進制位（bit）有0和1兩種狀態，8個二進制位稱之為1個字節。把鍵

ascii , utf-8 , 字符編碼 , unicode , 字符集

tosmile 頭像

Oct 17 2021

浪遏飛舟 - Sass將Unicode編譯成文字字符導致icon亂碼問題

發現問題最近在使用公司組件庫中的穿梭框組件時發現icon圖標全都亂碼了分析問題經排查發現，組件樣式文件（scss）引入的iconfont矢量圖標字體，構建時，\e601這類Unicode字符在經過sass編譯後就變成了文字字符（雙字節字符），導致出現亂碼 .icon-ok:before { content: "\e601"; } Sass編譯後 .icon-ok:before {

iconfont , sass , loader , plugin , unicode

yujiaao 頭像

Jun 07 2022

Yujiaao - Java char 類型究竟佔幾個字節?

https://docs.oracle.com/en/ja... Java 版本與 Unicode 版本對應關係 Java release Unicode version Java SE 15 Unicode 13.0 Java SE 13 Unicode 12.1 Java SE 12 Unicode

Nov 29 2025

mob64ca14137e4f - OCR文字識別少數民族文字識別國外文字識別

📖 引言在全球化的今天，多語言處理已經成為現代應用的標配。然而，當我將目光投向小語種——特別是維吾爾語時，發現技術資源異常匱乏。這篇文章將深入探討我如何從零開始構建一個高精度的多語言識別系統，重點解決維吾爾語識別這一技術難題。為什麼寫這篇文章？在開發「izdax 語音克隆平台」時，我面臨一個棘手的問題：如何準確識別用户輸

後端開發 , 人工智能 , 維吾爾語 , unicode , 語音識別 , Python

gdlf 頭像

May 09 2022

GoodLifeBro - 有關ASCII、Unicode、UTF-8、GBK的一些知識

擴展知識： byte（字節）：計算機中基本的存儲單元 bit（比特）：計算機中最小的存儲單位 1byte=8bit 字：計算機進行數據處理時，一次存取、加工和傳送的數據長度稱為字（word），一個字通常由一個或者多個字節構成。 16位計算機：一個字長就是16位，兩個字節。 32位計算機：一個字長度是32位，四個字節。瞭解：ASCII碼在計算機內部

ascii , utf-8 , 編碼 , JAVA , unicode

fuming_59a2de0b42252 頭像

Feb 26 2021

付明 - 一次徹底搞清unicode、utf8和utf8mb4

字符集和字符編碼字符集（CCS: Coded Character Set）：就是一個表格，表示每個字符對應數字（通常用16進製表示），比如unicode字符集中，數字1對應的就是U+00031，字母a對應的就是U+00061。字符編碼（CEF：Character Encoding Form）：因為計算機只認識0和1，所以計算機在存儲字母a（U+00031）的時候，不能直接存儲。所以就需

utf8mb4 , utf-8 , 編碼 , unicode , 字符集

moonbit 頭像

Feb 05 2024

Moonbit - MoonBit月兔新增多行字符串支持

MoonBit 更新 1. 新增多行字符串支持每行需要以#|開頭。多行字符串每行之間允許斷開、插入註釋，字符串內不支持轉義和字符串插值。 2. 新增函數式的loop循環其中continue 只允許出現在尾遞歸調用的位置，loop內允許使用break提前返回一個值。 3. 提供Trait::method調用支持支持以Debug::debug_write(self, buf)的形式調用t

loop , trait , 開發 , 程序員 , unicode

val3344 頭像

Sep 18 2022

val3344 - 詳解字符編碼與 Unicode

人類交流使用 A、B、C、中等字符，但計算機只認識 0 和 1。因此，就需要將人類的字符，轉換成計算機認識的二進制編碼。這個過程就是字符編碼。 ASCII 最簡單、常用的字符編碼就是 ASCII（American Standard Code for Information Interchange，美國信息交換標準代碼），它將美國人最常用的 26 個英文字符的大小寫和常用的標點符號，編碼成 0 到

invalidnull 頭像

Feb 26 2024

註銷 - 什麼是 unicode 代碼點

Unicode 代碼點是計算機科學中用於統一表示各種文字系統中字符的一個標準化方法。在詳細探討這個概念之前，我們需要理解 Unicode 的基本目標。Unicode 的設計初衷是為了解決傳統字符編碼方案的侷限性，比如 ASCII 只能表示英文字符和一些控制字符，而不能表示世界上其他語言的文字。Unicode 旨在提供一種能夠表示地球上幾乎所有文字系統的字符編碼方案。 Unicode 中的代碼點

jdcdevloper 頭像

Jul 21 2023

京東雲開發者 - Ui2Code+ChatGPT助力低代碼搭建 | 京東雲技術團隊

前言低代碼開發平台（LCDP），是低代碼或無代碼通過快速搭建配置的方式完成一個應用程序的開發與上線，可視化低代碼就是可視化的DSL，它的優點更多的是來源可視化，相對的，它的侷限性也還是來源於可視化，複雜的業務邏輯用低代碼可能會更加複雜。低代碼應該是特定領域問題的簡化和抽象，如果只是單純將原有的編碼工作轉換為 GUI 的模式，並沒有多大意義。背景隨着京東微信域業務與騰訊合作的加深，作為流量的載

小程序 , 低代碼 , 人工智能 , unicode

qinchuan_5d6e16e8918fd 頭像

Dec 08 2021

秦川 - 編碼、亂碼、unicode 和 Emoji

概述在各種日誌、tty 輸出中，我們總是能夠發現各種編碼不正確的字符。 �😸� `\xef\xbf\xbd\xf0\x9f\x98\xb8\xef\xbf\xbd` '\xe7\xb2\xbe\xe5\xa6\x99' `"ä½å¥½"` 遇到這種情況，我們下意識地會產生三個想法：這是什麼（原本的內容應該是什麼）？從哪裏來的？為什麼會這樣？我該怎麼處理好？對於我

亂碼 , 編碼 , emoji , unicode

raledong 頭像

Mar 27 2021

raledong - 每個開發必須瞭解的Unicode和字符集的那些事！

你曾經對神秘的Content-Type標籤感到好奇嗎？就是那個在HTML中經常用到但是很少有人瞭解為什麼要去使用它的標籤。你曾經收到過一封來自保加利亞的朋友發給你的郵件，郵件的標題是“???? ?????? ??? ????” ? 我很失望的發現有非常多的軟件開發者並不瞭解字符集，編碼，unicode等相關的知識。幾年前， FogBUGZ網站的一個測試人員想要知道它是否能夠成功接收來自日本的郵件

shuirong1997 頭像

May 23 2025

林水溶 - 中日文字異常問題分析和三種解決方案

異常現象對於相同的文字「將來」 Unicode 對應：\u5c06\u6765 中文用户反饋在網頁上看到了日文漢字，關注「將」日文用户反饋在網頁上看到了中文漢字，關注「將」用户預期：中文用户看到中文的漢字日文用户看到日文的漢字為什麼會有這種中日用户看到錯誤的文字問題呢？其實跟字符的 Unicode 有關係首先看這兩張圖：

fonts , Css , unicode , 前端

flydean 頭像

Jul 06 2021

flydean - 開發小技巧之:unicode的排序和正則匹配

簡介我們知道計算機最先興起是在國外，出於當時計算機性能的考慮和外國常用字符的考慮，最開始計算機使用的是ASCII，ASCII編碼能夠表示的字符畢竟是有限的，隨着計算機的發展和全世界範圍的流行，需要更多的能夠表示世界各地字符的編碼方式，這種編碼方式就是unicode。當然在unicode出現之前，各個國家或者地區根據本國的字符需求都制定過本國的編碼標準，當然這些編碼標準都是本地化的，不適用於全世

排序 , 正則表達式 , unicode

javatrip 頭像

Sep 19 2020

Java旅途 - “錕斤拷”的前世今生

不管是在工作中還是生活中，相信很多同學都被“錕斤拷”深深的毒害過，比如這樣，這樣，還有這樣，那麼究竟是為什麼會出現這些奇怪的字符？接下來我們一探究竟！ ASCII編碼在計算機底層都是用0和1進行存儲的，ASCII編碼將所有的字母及符號進行編碼後轉成二進制的0和1進行存儲，字母和符號佔1個字節（即8bit），標準的ASCII碼規定最高位必須為0，因此ASCII編碼只能有128個，轉成十

ascii , 亂碼 , 編碼 , JAVA , unicode

amc 頭像

Mar 22 2020

amc - Unicode 顏文字（emoji）格式和 Go 代碼處理

前幾天時間測試同學在我們的前端輸入了顏文字，之後軟件就出 bug 了。借修 bug 機會我花了點時間學習了一下 Unicode 顏文字（emoji）的一些知識。本文記錄我對 emoji 的一些認識，並且簡單介紹一下我為此而做的一個 Go 語言顏文字提取庫的用法。 Unicode 背景簡介我們大家都知道，為了標準化全世界所有文字的編碼，誕生了 unicode。最早 unicode 的設計者們採用的

emoji , unicode , go

adamcjm 頭像

May 14 2021

Adam - 字符集和字符編碼什麼關係

嚴格來説，字符集和字符編碼不是一個概念：字符集定義了字符和二進制的對應關係，為每個字符分配了唯一的編號。可以將字符集理解成一個很大的表格，它列出了所有字符和二進制的對應關係，計算機顯示文字或者存儲文字，就是一個查表的過程。字符編碼規定了如何將字符的編號存儲到計算機中。如果使用了類似 GB2312 和 GBK 的變長存儲方案（不同的字符佔用的字節數不一樣），那麼為了區分一個字符到底使用了幾個字節

gbk , utf-8 , 字符編碼 , unicode , 字符集