国产精品电影_久久视频免费_欧美日韩国产激情_成年人视频免费在线播放_日本久久亚洲电影_久久都是精品_66av99_九色精品美女在线_蜜臀a∨国产成人精品_冲田杏梨av在线_欧美精品在线一区二区三区_麻豆mv在线看

你可能不知道的字符串分割技巧

開發
Intl 是 ECMAScript 國際化 API 的一個命名空間,它提供了精確的字符串對比、數字格式化,和日期時間格式化能力。我們今天主要來看一下它提供的字符串分割能力!

大家好,我是 ConardLi。

假設我們現在有這樣一個需求,把一段話拆分成有意義的句子:

你好,我是 ConardLi。我來了!你是誰?你在哪?

你可能會第一時間想到,用 split 按所有可能斷句的標點符號分割就好了,比如下面的代碼:

var txt = '你好,我是 ConardLi。我來了!你是誰?你在哪?'
txt.split(/[。?!]/);
// ['你好,我是 ConardLi', '我來了', '你是誰', '你在哪', '']

看起來結果還不錯,但是可以斷句的中文標點符號只有這三個嗎?顯然不是,如果我們想要處理更復雜的文本,需要持續完善這個正則,另外這樣分割還有一個最大的問題是標點符號會在分割后的結果中丟失。

如果我們想要按詞語進行分割,而不是語句呢?

如果我們想要分割的文本是英語、阿拉伯語呢...

// 中文
const cn = '你好,我是 ConardLi。我來了!你是誰?你在哪?';

// 英文
const en = 'Hello, I'm ConardLi. I'm coming! Who are you? Where are you?';

// 阿拉伯語
const ar = '?????? ??? ????????. ??? ????! ?? ???? ??? ????';

這時候 split 可能就會表示無能為力了!

Intl API

Intl 是 ECMAScript 國際化 API 的一個命名空間,它提供了精確的字符串對比、數字格式化,和日期時間格式化能力。我們今天主要來看一下它提供的字符串分割能力!

Intl.Segmenter 對象專門為語言敏感的文本分割而生,它允許你將一個字符串分割成有意義的片段(字、詞、句),下面我們看看它對以上三種語言的分割結果:

中文

const segmenter = new Intl.Segmenter(
'zh', { granularity: 'sentence' }
);

console.log(
Array.from(
segmenter.segment(你好,我是 ConardLi。我來了!你是誰?你在哪?),
s => s.segment
)
);
// ['你好,我是 ConardLi。', '我來了!', '你是誰?', '你在哪?']

英語

const segmenter = new Intl.Segmenter(
'en', { granularity: 'sentence' }
);

console.log(
Array.from(
segmenter.segment(`Hello, I'm ConardLi. I'm coming! Who are you? Where are you?`),
s => s.segment
)
);
// ["Hello, I'm ConardLi. ", "I'm coming! ", 'Who are you? ', 'Where are you?']

阿拉伯語

const segmenter = new Intl.Segmenter(
'ar', { granularity: 'sentence' }
);

console.log(
Array.from(
segmenter.segment(`?????? ??? ????????. ??? ????! ?? ???? ??? ????`),
s => s.segment
)
);
// ['?????? ??? ????????. ', '??? ????! ', '?? ???? ', '??? ????']

Intl 的兼容性也還不錯,除了 Firefox 目前還沒有對它提供支持,其他的各大瀏覽器均已支持。

圖片

下面我們來了解一些 Intl.Segmenter 的細節。

構造參數

在上面的示例中,我們在 Intl.Segmenter 的構造函數傳入了兩個參數。

第一個參數是語言地域編碼,結構是:'語言編碼-地區編碼',因為同樣的語言在不同的地區也可能會有區別,比如下面的一些常見示例:

  • zh :中文
  • zh-CN :簡體中文
  • zh-HK :香港地區的中文(繁體中文)
  • en :英語
  • en-US :美式英語
  • en-CB :英式英語

第二個參數是一些更詳細的配置參數,我們主要關注 granularity,它有三個值,分別表示我們要將字符串分割為句、詞、還是字:

const segmenter = new Intl.Segmenter(
'zh', { granularity: 'sentence' } // 句
);
// ['你好,我是 ConardLi。', '我來了!', '你是誰?', '你在哪?']

const segmenter = new Intl.Segmenter(
'zh', { granularity: 'word' } // 詞
);
// ['你好', ',', '我是', ' ', 'ConardLi', '。', '我來', '了', '!', '你是', '誰', '?', '你在', '哪', '?']

const segmenter = new Intl.Segmenter(
'zh', { granularity: 'grapheme' } // 字
);
// ['你', '好', ',', '我', '是', ' ', 'C', 'o', 'n', 'a', 'r', 'd', 'L', 'i', '。', '我', '來', '了', '!', '你', '是', '誰', '?', '你', '在', '哪', '?']

返回值

在上面的例子中可以發現,我們使用 Array.from 對 segment 的返回值進行了處理:

console.log(
Array.from(
segmenter.segment(你好,我是 ConardLi。我來了!你是誰?你在哪?),
s => s.segment
)
);

這是因為它返回的并不是一個數組,而是一個 iterable 對象,如果訪問里面的字段,我可以用 for-of 或者使用 Array.from 函數轉換為數組。

const segmenter = new Intl.Segmenter('zh', {
granularity: 'sentence'
});
const segments = segmenter.segment('...');

// 結構轉為數組
console.log([...segments]);

// Array.from 轉為數組
console.log(Array.from(segments));

// for-of 遍歷
for (let segment of segments) {
console.log(segment);
}

完整的返回值包括分割后的字符、字符所在位置、輸入的完整內容:

圖片

另外,在前面的示例中,當我們將文字分割為詞時,可以發現標點符號、空格等都被分割出來了:

const segmenter = new Intl.Segmenter(
'zh', { granularity: 'word' } // 詞
);

const result = segmenter.segment(`你好,我是 ConardLi。', '我來了!', '你是誰?', '你在哪?`)

Array.from( result , s => s.segment)

// ['你好', ',', '我是', ' ', 'ConardLi', '。', '我來', '了', '!', '你是', '誰', '?', '你在', '哪', '?']

這時返回值里還會包括一個 isWordLike 屬性,可以用于過濾是否真的為詞語:

Array.from(result).filter(s => s.isWordLike).map(s => s.segment)
// ['你好', '我是', 'ConardLi', '我來', '了', '你是', '誰', '你在', '哪']

處理 emojis

一般我們要處理的文本里如果包括了 emojis ,那問題就可能變得麻煩起來了...

圖片

我們來看下面的示例:

const str1 = '12345';
const str2 = '12345?????';

console.log(str1.length); // 5
console.log(str2.length); // 10

str1.split('')
// ['1', '2', '3', '4', '5']
str2.split('')
// ['1', '2', '3', '4', '5', '\uD83D', '\uDE35', '?', '\uD83D', '\uDCAB']

str2.replaceAll(/\D/g, '0')
// '1234500000'

為啥會出現這種現象呢?我們先來回顧一下計算機最基礎的概念:字符集與編碼:

圖片

字符集 (Character Set) 是字符的集合,定義系統能處理哪些字符;編碼( Encoding )則規定這些字符在計算機內部的表示方式。

Unicode 是一套標準,包含多語言統一的字符集及其相關編碼,以及在這個字符集上進行文本處理的相關規則。

在 Unicode 中,每個字符被分配了一個數值 (Code Point,代碼點) 和一個名稱。比如字母 A 的名稱是 LATIN CAPITAL LETTER A (大寫拉丁字母A)。它對應的數值是 65,通常寫作 U+0041( 41 是十六進制數,等于 10 進制的 65)。

字素是文本在書寫時最小的單位,可以被理解為單獨的“字”。

在 Unicode 標準中,字符(Character)一般指代碼點(Code Point)。通常,一個字素就是一個字符。但是,也有些字素是由多個字符序列組合而成的。比如字母 é 可以用字母 e (U+0065) 加上重音符 (U+0301) 組合而成。像重音符這樣用于修飾前一個字符的字符,被稱為組合字符(Combining Character)。

比如你看到的這個字符:啊?????????????????????? ,就是個組合字符...

圖片

現在對于上面的 emojis 出現的字符串分割問題是不是就容易理解了,因為很多 emojis 都是下面這樣的組合字符:


?? + ? = ???
?? - U+1F3FB
? - U+270B
??? - U+270B U+1F3FB

'???'.split('') // ['?', '\uD83C', '\uDFFB']

那么下面回歸正題了,Intl.Segmenter 的出現也可以解決這樣的組合字符的分割問題:

'12345?????'.split('')
// ['1', '2', '3', '4', '5', '\uD83D', '\uDE35', '?', '\uD83D', '\uDCAB']


const segmenter = new Intl.Segmenter('en', {
granularity: 'grapheme'
});

Array.from(
segmenter.segment('12345?????'),
s => s.segment
)
// ['1', '2', '3', '4', '5', '?????']

最后在多提一下,最近有一個新的 ECMAScript 提案,為正則表達式新增了一個新的標識符 '/v' (目前已經到達 stage 3)就是用來解決正則中的組合字符匹配的問題的:

'12345?????'.replaceAll(/\D/g, '0')
// '1234500000'


'12345?????'.replaceAll(/\D/gv, '0')
// '123450'

本來是講字符串分割的,寫著寫著有點跑偏了,大家湊合著看吧 ...

???????????·??·???????????????????????·??·???????????????????????·??·???????????????????????·??·???????????????????????·??·???????????????????????·??·???????????????????????·??·???????????????????????·??·???????????????????????·??·???????????????????????·??·???????????????????????·??·????????????

責任編輯:趙寧寧 來源: code秘密花園
相關推薦

2022-12-21 08:05:04

字符串分割技巧

2021-01-05 11:22:58

Python字符串代碼

2020-01-29 19:40:36

Python美好,一直在身邊Line

2015-08-13 09:03:14

調試技巧

2012-11-23 10:57:44

Shell

2024-03-04 00:00:00

Kubernetes技巧API

2022-09-20 11:58:27

NpmNode.js

2023-02-27 09:20:24

絕對定位CSS

2023-01-29 09:46:47

Dialog彈窗模態

2017-02-23 19:42:55

AS Android代碼

2017-11-07 21:58:25

前端JavaScript調試技巧

2020-11-03 09:51:04

JavaScript開發 技巧

2021-02-28 08:34:14

CSS outline-off負值技巧

2019-11-20 10:25:06

sudoLinux

2021-02-16 09:02:59

Python代碼技巧

2021-02-21 06:36:57

運算技巧按位

2021-07-12 07:59:06

安全 HTML 屬性

2019-11-25 14:05:47

Python裝飾器數據

2014-12-08 10:39:15

2014-04-10 13:15:54

PythonPython技巧
點贊
收藏

51CTO技術棧公眾號

九九色在线视频| 日韩免费电影| 国模少妇一区二区三区| 欧美精品在线网站| 亚洲天堂2017| 国产麻豆精品95视频| 亚洲xxxx18| www.神马久久| 亚洲欧美三级伦理| 在线视频自拍| 又紧又大又爽精品一区二区| 丁香六月激情网| 精品久久精品| 欧美激情精品久久久久久黑人| 日本在线视频www鲁啊鲁| 亚洲国产视频网站| jizz18女人| 福利视频网站一区二区三区| 国产一区二区三区四区hd| 久久99性xxx老妇胖精品| 日韩视频永久免费观看| 黄色污污视频在线观看| 日韩欧美国产免费播放| 免费在线黄色av| 国产女人18毛片水真多成人如厕| 亚洲一区三区电影在线观看| 亚洲国产高清一区| 国产欧美在线播放| 日本成人中文| 久久久久久国产三级电影| 电影亚洲一区| 亚洲欧洲高清在线| 少妇视频在线观看| 日韩高清av在线| www.九色在线| 亚洲电影中文字幕| 国产美女高潮在线| 日韩精品在线电影| 91av亚洲| 亚洲欧美成人网| 在线天堂新版最新版在线8| 精品三级av在线| 日韩特级毛片| 日韩精品在线一区| 欧美日韩色网| 国产婷婷97碰碰久久人人蜜臀 | 精品国产乱码久久久久久88av| 国产亚洲一卡2卡3卡4卡新区| 78m国产成人精品视频| 欧美大片网址| 国产精品久久久久久久久免费看| 九九亚洲精品| 成人精品久久久| 国产综合网站| 精品一区二区三区免费毛片| 性色av一区二区怡红| 精品视频第一区| 日本欧美在线观看| 午夜激情久久久| 久久美女视频| avlululu| 久久天天躁狠狠躁夜夜躁2014| 超碰国产精品一区二页| 在线性视频日韩欧美| 99久久99久久精品国产片桃花| 亚洲自拍偷拍视频| 国产三级精品三级| 一级毛片免费看| 欧美激情xxxx性bbbb| 超碰97久久| 欧美日韩国产综合在线| 中文字幕在线免费不卡| 麻豆蜜桃在线| av观看久久| 中文字幕欧美区| 欧美日一区二区在线观看| 日本人妖在线| 成年人看的毛片| 久久久电影免费观看完整版| 国产黄在线观看免费观看不卡| 欧美在线3区| 久久综合视频网| 乱插在线www| 国产一区二区视频在线观看| 中文字幕免费观看一区| 精品美女一区| 色老板在线视频| 91免费福利视频| 日韩精品在线一区二区| 88国产精品视频一区二区三区| 久久99精品久久| 五月天婷亚洲天综合网鲁鲁鲁| 欧美国产亚洲精品久久久8v| 91麻豆精品国产91久久久 | 美女在线视频一区| 浮妇高潮喷白浆视频| 国内自拍欧美激情| 亚洲色图20p| 欧美一区成人| 电影一区二区| 中文字幕在线观看一区二区三区| 国产亚洲一级高清| 日韩片之四级片| 激情欧美国产欧美| 精品女厕厕露p撒尿| 久久欧美在线电影| 看电视剧不卡顿的网站| 免费观看亚洲视频大全| 亚洲高清国产精品| 91久久国产综合久久91精品网站| 亚洲最新在线观看| 国内精品写真在线观看| 成人在线播放免费观看| 日本桃色视频| 77777少妇光屁股久久一区| 偷拍一区二区三区| www..com久久爱| 激情小视频在线| 日本三级韩国三级久久| 在线精品视频小说1| 51亚洲精品| 九色91视频| 国产传媒欧美日韩成人| 性欧美极品xxxx欧美一区二区| 日韩视频一区二区| 国产区在线看| 4444欧美成人kkkk| 久久国产麻豆精品| www.xxx麻豆| 91av在线免费观看视频| 疯狂欧美牲乱大交777| 国产高清亚洲一区| 羞羞色午夜精品一区二区三区| 性感女国产在线| av美女在线观看| 日韩高清在线| 亚洲成a人片| 男男做性免费视频网| 久草在线在线视频| 一区二区三区偷拍| 99热精品在线| 伊人色综合久久| 欧美一级大片视频| 国产日本亚洲高清| av在线一区不卡| 潘金莲一级淫片aaaaaa播放1| 在线成人免费视频| 午夜天堂精品久久久久| 黄页视频在线免费观看| 91国产美女视频| 欧美激情在线看| 视频精品一区| 精品久久久噜噜噜噜久久图片| 中文字幕日韩精品在线| 国产乱淫av一区二区三区| 日本性爱视频在线观看| 欧美日韩国产一二| 日韩一区二区免费电影| 老司机免费视频久久| 影音先锋男人在线资源| 麻豆亚洲一区| 欧美电视剧在线看免费| 亚洲一区二区三区四区五区午夜 | 精品国产一区二区三区免费| 五月天精品一区二区三区| 精品国产精品| 天堂av在线7| 国产日韩精品推荐| 欧美日韩国产综合一区二区| 国产视频一区免费看| 午夜av在线免费观看 | 亚洲国产欧美国产第一区| 十八禁视频网站在线观看| 久久久久久久999| 亚洲欧美韩国综合色| 色狮一区二区三区四区视频| 六十路在线观看| 欧美精品在线一区| 亚洲精品理论电影| 91丝袜国产在线播放| 57pao国产一区二区| 最新二区三区av| 精品一区国产| 国产亚洲免费的视频看| 91首页免费视频| 免费av一区二区三区四区| 日韩成人黄色| 一级日韩一区在线观看| 欧美成人第一页| 亚洲成av人片一区二区三区| 99精品免费网| 久久xxx视频| av超碰在线| 日本欧美精品久久久| 国产亚洲欧美另类中文| **性色生活片久久毛片| 国内精品美女在线观看| 奇米777日韩| 中文字幕在线影院| 国产又大又长又粗又黄|